RU2488877C2

RU2488877C2 - Identification of semantic relations in indirect speech

Info

Publication number: RU2488877C2
Application number: RU2010107150/08A
Authority: RU
Inventors: Ричард КРАУЧ; ДЕН БЕРГ Мартин ВАН; Дэвид АН; Оля ГУРЕВИЧ; Барни ПЕЛЛ; Ливия ПОЛАНИ; Скотт ПРИВОСТ; Джованни Лоренцо ТИОНЕ
Original assignee: Майкрософт Корпорейшн
Priority date: 2007-08-31
Filing date: 2008-08-29
Publication date: 2013-07-27
Also published as: EP2183686A4; IL204108A; AU2008292781B2; KR20100075454A; WO2009029905A3; AU2008292781A1; WO2009029905A2; JP5501967B2; RU2010107150A; BRPI0816088A2; CA2698105A1; JP2010538375A; KR101524889B1; CN101796511B; MX2010002350A; CN101796511A; CA2698105C; EP2183686A2

Abstract

FIELD: information technologies.

SUBSTANCE: method is realised for building of semantic relations between elements extracted from document content, in order to generate semantic representation of content. Semantic representations may contain elements identified or analysed in the text part of the content, elements of which may be associated with other elements, which jointly use semantic relations, such as relations of an agent, a location or a topic. Relations may also be built by means of association of one element, which is connected to another element or is near, thus allowing for quick and efficient comparison of associations found in the semantic representation, with associations received from requests. Semantic relations may be defined on the basis of semantic information, such as potential values and grammatical functions of each element within the text part of the content.

EFFECT: provision of quick detection of most relevant results.

21 cl, 11 dwg

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF THE INVENTION

Настоящее изобретение относится, в общем, к компьютерно-реализованным онлайновым поискам и, в частности, к идентификации семантических взаимоотношений в косвенной речи.The present invention relates, in General, to computer-implemented online searches and, in particular, to the identification of semantic relationships in indirect speech.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

Онлайновые механизмы поиска стали в большой мере важным инструментом для ведения исследований или перемещения среди документов, доступных через Интернет. Часто онлайновые механизмы поиска выполняют процесс определения совпадения для обнаружения возможных документов или текста внутри таких документов, для чего используется запрос, даваемый пользователем. Первоначально процесс определения совпадения, предлагаемый обычными онлайновыми механизмами поиска, такими как те, которые поддерживают Google или Yahoo, позволяет пользователю указать в запросе одно или более ключевых слов, чтобы описать информацию, которую он или она ищет. Затем традиционный онлайновый механизм поиска переходит к нахождению всех документов, которые содержат точные совпадения с ключевыми словами, хотя эти документы обычно не обеспечивают релевантные или значимые результаты в ответ на запрос.Online search engines have become, to a large extent, an important tool for conducting research or moving among documents accessible via the Internet. Often, online search engines perform a matching process to detect possible documents or text within such documents, for which a request is made by the user. Initially, the matching process offered by conventional online search engines, such as those supported by Google or Yahoo, allows the user to specify one or more keywords in the query to describe the information that he or she is looking for. Then the traditional online search engine proceeds to find all documents that contain exact matches with keywords, although these documents usually do not provide relevant or meaningful results in response to a query.

Существующие традиционные онлайновые механизмы поиска ограничены тем, что в просмотренных при поиске документах они не распознают слова, соответствующие ключевым словам в запросе, выходящие за рамки точного совпадения, получаемого в процессе определения совпадения. Кроме того, традиционные онлайновые механизмы поиска ограничены, поскольку пользователь ограничен ключевыми словами в запросе, для которых должно быть найдено совпадение, и, таким образом, пользователю не дается возможности точно выразить желаемую информацию, если она неизвестна. Соответственно, реализация механизма поиска на естественном языке, чтобы распознать семантические взаимоотношения между ключевыми словами запроса и словами в просмотренных при поиске документах, могла бы однозначно повысить точность результатов поиска.Existing traditional online search engines are limited in that they do not recognize words matching the keywords in the query in documents viewed during searches that go beyond the exact match obtained in the match determination process. In addition, traditional online search engines are limited because the user is limited to keywords in the query for which a match must be found, and thus the user is not given the opportunity to accurately express the desired information if it is unknown. Accordingly, the implementation of a natural language search engine to recognize semantic relationships between query keywords and words in documents viewed during a search could unambiguously improve the accuracy of search results.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Настоящий раздел "Сущность изобретения" предоставлен для введения выборки концепций в упрощенной форме, которые дополнительно описаны ниже в разделе "Подробное описание". Раздел "Сущность изобретения" не предназначен идентифицировать ключевые признаки или существенные признаки заявленного объекта изобретения, а также не предназначен для использования в качестве помощи при определении объема заявленного объекта изобретения.The present "Summary of the Invention" section is provided for introducing a selection of concepts in a simplified form, which are further described below in the "Detailed Description" section. The section "Summary of the invention" is not intended to identify key features or essential features of the claimed subject matter of the invention, nor is it intended to be used as an aid in determining the scope of the claimed subject matter of the invention.

Варианты осуществления настоящего изобретения относятся к способам, осуществляемым на компьютерной основе, и считываемым компьютером носителям для построения ассоциаций между различными словами, найденными в содержимом документов, извлеченных из Web-сети или некоторого другого репозитория, а также терминами, содержащимися в запросе поиска. Содержимое, которое может быть семантически представлено, может быть косвенной речью и другими сообщениями об отношении, так чтобы семантическое представление содержимого могло быть сравнено с принятыми запросами на естественном языке для предоставления пользователю значимых и высоко релевантных результатов. Семантические взаимоотношения, такие как взаимоотношения "о чем" ("about"), могут идентифицироваться между определенными элементами или поисковыми терминами, чтобы позволить формирование конкретных словесных ассоциаций. Когда семантические взаимоотношения сформированы, может быть создано семантическое представление для содержимого документа и может быть создано высказывание для запроса поиска, каждое из которых позволяет быстрое сравнение высказывания с одним или более семантическими взаимоотношениями для определения наиболее релевантных результатов поиска.Embodiments of the present invention relate to computer-based methods and computer-readable media for constructing associations between various words found in the contents of documents retrieved from a Web network or some other repository, as well as terms contained in a search query. Content that can be semantically presented can be indirect speech and other messages about the relationship, so that the semantic representation of the content can be compared with accepted requests in a natural language to provide the user with meaningful and highly relevant results. Semantic relationships, such as "about" relationships, can be identified between specific elements or search terms to allow the formation of specific verbal associations. When the semantic relationships are formed, a semantic representation can be created for the contents of the document and a sentence can be created for the search query, each of which allows a quick comparison of the sentence with one or more semantic relationships to determine the most relevant search results.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Ниже подробно описаны варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:Embodiments of the present invention are described in detail below with reference to the accompanying drawings, in which:

Фиг.1 - блок-схема примера компьютерной среды, пригодной для использования при реализации вариантов осуществления настоящего изобретения;Figure 1 is a block diagram of an example computer environment suitable for use in implementing embodiments of the present invention;

Фиг.2 - схема примера системной архитектуры, пригодной для использования при реализации вариантов осуществления настоящего изобретения;FIG. 2 is a diagram of an example system architecture suitable for use in implementing embodiments of the present invention; FIG.

Фиг.3 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;Figure 3 is a diagram of a semantic representation created from a text part within a document in accordance with an embodiment of the present invention;

Фиг.4 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;4 is a diagram of a semantic representation created from a text part within a document in accordance with an embodiment of the present invention;

Фиг.5 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;5 is a diagram of a semantic representation created from a text portion within a document in accordance with an embodiment of the present invention;

Фиг.6 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;6 is a diagram of a semantic representation created from a text portion within a document in accordance with an embodiment of the present invention;

Фиг.7 - схема высказывания, созданного из запроса поиска в соответствии с вариантом осуществления настоящего изобретения;7 is a diagram of a sentence created from a search query in accordance with an embodiment of the present invention;

Фиг.8 - схема семантического представления, созданного из текстовой части внутри документа, причем текстовая часть содержит два высказывания, соответствующая варианту осуществления настоящего изобретения;Fig. 8 is a diagram of a semantic representation created from a text part inside a document, wherein the text part contains two sentences, corresponding to an embodiment of the present invention;

Фиг.9 - блок-схема последовательности выполнения операций способа построения семантических взаимоотношений между элементами, извлеченными из содержимого документа, соответствующая варианту осуществления настоящего изобретения;FIG. 9 is a flowchart of a method for constructing semantic relationships between elements extracted from document contents in accordance with an embodiment of the present invention; FIG.

Фиг.10 - блок-схема последовательности выполнения операций способа создания, в ответ на получение запроса, ассоциаций между различными терминами, извлеченными из запроса для создания высказывания, соответствующая варианту осуществления настоящего изобретения; иFIG. 10 is a flowchart of a method for creating, in response to a request, associations between different terms extracted from a query to create a sentence according to an embodiment of the present invention; and

Фиг.11 - блок-схема последовательности выполнения операций способа построения семантических взаимоотношений между элементами, извлеченными из содержимого документа, соответствующая варианту осуществления настоящего изобретения.11 is a flowchart of a method for constructing semantic relationships between elements extracted from document content in accordance with an embodiment of the present invention.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

Объект настоящего изобретения описывается здесь конкретно, чтобы выполнить установленные законом требования. Однако само по себе описание не предназначено ограничивать объем настоящего патента. Скорее изобретатели подразумевали, что заявленный объект изобретения мог бы быть также осуществлен другими способами, содержать другие этапы или комбинации этапов, подобных тем, которые описаны в настоящем документе, в сочетании с другими существующими или будущими технологиями. Кроме того, хотя термины "этап" и/или "блок" могут использоваться здесь, чтобы означать различные элементы используемых способов, термины не должны интерпретироваться как подразумевающие какой-либо конкретный порядок различных этапов, раскрытых здесь, если и кроме тех случаев, когда порядок следования индивидуальных этапов описан в явном виде.The subject matter of the present invention is specifically described herein in order to fulfill statutory requirements. However, the description itself is not intended to limit the scope of this patent. Rather, the inventors meant that the claimed subject matter could also be implemented in other ways, contain other steps or combinations of steps similar to those described herein, in combination with other existing or future technologies. In addition, although the terms “step” and / or “block” may be used here to mean various elements of the methods used, the terms should not be interpreted as implying any particular order of the various steps disclosed here, if and other than in cases where the order following the individual steps is described explicitly.

Соответственно, в одном аспекте обеспечивается способ, осуществляемый на компьютерной основе, для разработки семантических взаимоотношений между элементами, выделенными из содержимого документа, для создания семантического представления содержимого для индексирования. Первоначально способ содержит идентификацию текстовой части документа, которая должна индексироваться, и определение семантической информации для множества элементов, идентифицированных в текстовой части. Семантическая информация может содержать одно или более значений идентифицированных элементов или грамматические и/или семантические взаимоотношения между идентифицированными элементами. По меньшей мере, один из идентифицированных элементов может быть идентифицирован как действие по сообщению информации, соответствующей косвенной речи или сообщению об отношении. Способ дополнительно содержит ассоциирование идентифицированных элементов так, что каждая ассоциация идентифицированных элементов представляет определенные семантические взаимоотношения, основываясь на определенной семантической информации идентифицированных элементов. Дополнительно, способ содержит создание семантического представления, содержащего ассоциации идентифицированных элементов.Accordingly, in one aspect, a computer-based method is provided for developing semantic relationships between elements derived from document content, for creating a semantic presentation of content for indexing. Initially, the method comprises identifying the text part of the document to be indexed, and determining semantic information for a plurality of elements identified in the text part. The semantic information may contain one or more values of the identified elements or grammatical and / or semantic relationships between the identified elements. At least one of the identified elements may be identified as an action of communicating information corresponding to indirect speech or a message of attitude. The method further comprises associating the identified elements so that each association of the identified elements represents a certain semantic relationship based on certain semantic information of the identified elements. Additionally, the method comprises creating a semantic representation containing associations of identified elements.

В другом аспекте обеспечивается способ, осуществляемый на компьютерной основе, в котором в ответ на получение запроса на естественном языке, создаются ассоциации между различными терминами, выделенными из запроса, чтобы создать высказывание. Высказывание может использоваться для опроса семантических представлений содержимого из документов, хранящихся в семантическом индексе, чтобы обеспечить релевантные результаты поиска. Способ также содержит определение ассоциированной семантической информации для одного или более поисковых терминов, найденных в пределах запроса. Первое действие по сообщению информации может быть определено в пределах запроса и семантические взаимоотношения могут быть сформированы между первым действием по сообщению информации и, по меньшей мере, одним из поисковых терминов, основываясь на определенной семантической информации для этого поискового термина. Созданная ассоциация между первым действием по сообщению информации и поисковым термином образуется посредством реляционного элемента, описывающего семантические взаимоотношения. Наконец, высказывание, содержащее сформированные ассоциации, может быть создано и может дополнительно сравниваться с семантическими представлениями, чтобы определить высоко релевантные результаты поиска.In another aspect, a computer-based method is provided in which, in response to a request in a natural language, associations are created between the various terms extracted from the request to create a statement. An utterance can be used to query semantic representations of content from documents stored in a semantic index to provide relevant search results. The method also comprises determining associated semantic information for one or more search terms found within the query. The first action for reporting information can be determined within the query and semantic relationships can be formed between the first action for reporting information and at least one of the search terms based on certain semantic information for this search term. The created association between the first action of communicating information and the search term is formed by means of a relational element that describes semantic relationships. Finally, a sentence containing the generated associations can be created and can be further compared with semantic representations in order to determine highly relevant search results.

Еще в одном аспекте обеспечиваются один или более считываемых компьютером носителей, на которых содержатся команды, исполняемые компьютером для выполнения способа построения семантических взаимоотношений между элементами, выделенными из содержимого документа, чтобы создать семантическое представление содержимого, которое должно индексироваться. Первоначально, способ содержит идентификацию, по меньшей мере, части документа или текстовой части, которые должны быть индексированы. Текстовая часть может затем быть проанализирована, чтобы идентифицировать элементы, которые должны быть семантически представлены. Потенциальные значения и грамматические или семантические взаимоотношения между идентифицированными элементами определяются в дополнение к определению одного или более уровней ассоциации в пределах текстовой части. Способ также содержит идентификацию действия по сообщению информации в пределах текстовой части для каждого одного или более определенных уровней ассоциации, так что первое действие по сообщению информации может ассоциироваться с первым набором идентифицированных элементов. Первое действие по сообщению информации может быть связано с первым уровнем ассоциации. Точно также, второе действие по сообщению информации может быть связано со вторым набором идентифицированных элементов, причем второе действие по сообщению информации ассоциируется со вторым уровнем ассоциации. Дополнительно может создаваться содержащее ассоциации семантическое представление, используя реляционный элемент, описывающий ассоциации между первым набором идентифицированных элементов и первым действием по сообщению информации и между вторым набором идентифицированных элементов и вторым действием по сообщению информации.In yet another aspect, one or more computer-readable media are provided that comprise computer-executable instructions for performing a method of constructing semantic relationships between elements extracted from document content to create a semantic representation of the content to be indexed. Initially, the method comprises identifying at least a portion of a document or text portion to be indexed. The text part can then be analyzed to identify elements that should be semantically represented. Potential meanings and grammatical or semantic relationships between identified elements are determined in addition to defining one or more levels of association within the text portion. The method also comprises identifying an information reporting action within the text portion for each one or more specific association levels, such that the first information reporting action may be associated with a first set of identified elements. The first action to communicate information may be associated with the first level of association. Similarly, a second information reporting action may be associated with a second set of identified elements, the second information reporting action being associated with a second association level. Additionally, an association-containing semantic representation can be created using a relational element that describes the associations between the first set of identified elements and the first action for reporting information and between the second set of identified elements and the second action for reporting information.

Кратко описанный обзор вариантов осуществления настоящего изобретения и некоторые из его признаков являются примером рабочей среды, пригодной для осуществления настоящего изобретения, описанного ниже.A brief description of the embodiments of the present invention and some of its features are an example of a working environment suitable for the implementation of the present invention described below.

Со ссылкой на чертежи, в целом, и, прежде всего, в частности, на фиг.1, показан пример рабочей среды для реализации вариантов осуществления настоящего изобретения, которая, в целом, определяется как компьютерное устройство 100. Компьютерное устройство 100 является всего лишь одним примером подходящей компьютерной среды и не предназначено предлагать какое-либо ограничение относительно объема использования или функциональных возможностей изобретения. Компьютерное устройство 100 никак не должно интерпретироваться как обладающее какой-либо зависимостью или создающее какое-либо требование, относящееся к любому из показанных компонент или их комбинации.With reference to the drawings, in General, and, in particular, in particular, figure 1, shows an example of a working environment for implementing embodiments of the present invention, which, in General, is defined as a computer device 100. Computer device 100 is just one an example of a suitable computing environment and is not intended to offer any limitation as to the scope of use or functionality of the invention. Computer device 100 should in no way be interpreted as having any dependency or creating any requirement related to any of the components shown or a combination thereof.

Изобретение может быть описано в общем контексте машинного кода или машинно-используемых команд, содержащих исполняемые компьютером команды, такие как программные компоненты, выполняемые компьютером или другим устройством, таким как карманный компьютер или другое карманное устройство. В целом, программные компоненты, содержащие подпрограммы, программы, объекты, компоненты, структуры данных и т.п., относятся к коду, который выполняет конкретные задачи или реализует конкретные абстрактные типы данных. Варианты осуществления настоящего изобретения могут быть осуществлены с помощью множества системных конфигураций, в том числе, карманные устройства, бытовая электроника, универсальные компьютеры, специальные компьютерные устройства и т.д. Варианты осуществления изобретения могут также быть реализованы в распределенных компьютерных средах, где задачи выполняются дистанционно обрабатывающими устройствами, которые связаны через сеть связи.The invention may be described in the general context of machine code or machine-used instructions containing computer-executable instructions, such as program components, being executed by a computer or other device, such as a palmtop computer or other handheld device. In general, software components that contain subroutines, programs, objects, components, data structures, etc., refer to code that performs specific tasks or implements specific abstract data types. Embodiments of the present invention can be implemented using a variety of system configurations, including handheld devices, consumer electronics, universal computers, special computer devices, etc. Embodiments of the invention may also be implemented in distributed computing environments where tasks are performed remotely by processing devices that are linked through a communications network.

Продолжая обращаться к фиг.1, компьютерное устройство 100 содержит шину 110, которая прямо или косвенно соединяет следующие устройства: запоминающее устройство 112, один или более процессоров 114, один или более компонентов 116 представления, порты 118 ввода-вывода (I/O), компоненты 120 I/O и пример источника 122 электропитания. Шина 110 может быть представлена одной или более шинами (такими как адресная шина, шина данных или их комбинация). Хотя различные блоки на фиг.1 для ясности очерчены линиями, в действительности, очерчивание различных компонентов не столь конкретно и, если быть более точными, линии должны быть серыми и нечеткими. Например, можно рассматривать компонент представления, такой как устройство отображения, как компонент ввода-вывода. Кроме того, процессоры имеют запоминающее устройство. Изобретатели признают, что таков характер техники и снова повторяют, что схема на фиг.1 является просто примером компьютерного устройства, которое может использоваться в связи с одним или более вариантами осуществления настоящего изобретения. Между такими категориями как "рабочая станция", "сервер", "ноутбук", "карманное устройство" и т.д. различия не делается, поскольку все они считаются попадающими в рамки фиг.1 как ссылка на "компьютер" или "компьютерное устройство".Continuing to refer to figure 1, the computer device 100 includes a bus 110, which directly or indirectly connects the following devices: a storage device 112, one or more processors 114, one or more presentation components 116, input / output (I / O) ports 118, I / O components 120 and an example of a power supply 122. Bus 110 may be represented by one or more buses (such as an address bus, data bus, or a combination thereof). Although the various blocks in FIG. 1 are outlined for clarity, in reality, the outlines of the various components are not so specific and, to be more precise, the lines should be gray and fuzzy. For example, one may consider a presentation component, such as a display device, as an input / output component. In addition, the processors have a storage device. The inventors acknowledge that this is the nature of the technique and again repeat that the circuit of FIG. 1 is merely an example of a computer device that can be used in connection with one or more embodiments of the present invention. Between categories such as “workstation”, “server”, “laptop”, “handheld device”, etc. no distinction is made, since they are all considered to fall within the scope of FIG. 1 as a reference to “computer” or “computer device”.

Компьютерное устройство 100 обычно содержит множество считываемых компьютером носителей. Для примера, но не для ограничения, считываемые компьютером носители могут содержать оперативное запоминающее устройство (RAM); постоянное запоминающее устройство (ROM); электрически стираемое программируемое постоянное запоминающее устройство (EEPROM); флэш-память или запоминающие устройства, выполненные по другим технологиям; CD-ROM, цифровые универсальные диски (DVD) или другие оптические или голографические носители; магнитные кассеты, магнитные ленты, запоминающие устройства на магнитных дисках или другие магнитные запоминающие устройства; или любой другой носитель, который может использоваться для кодирования желаемой информации и к которому может получать доступ компьютерное устройство 100.Computer device 100 typically comprises a variety of computer readable media. By way of example, but not limitation, computer-readable media may include random access memory (RAM); read-only memory device (ROM); Electrically Erasable Programmable Read-Only Memory (EEPROM); flash memory or storage devices made using other technologies; CD-ROMs, digital versatile discs (DVDs), or other optical or holographic media; magnetic cassettes, magnetic tapes, magnetic disk storage devices or other magnetic storage devices; or any other medium that can be used to encode the desired information and which can be accessed by the computer device 100.

Запоминающее устройство 112 содержит компьютерный носитель данных в форме энергозависимого и/или энергонезависимого запоминающего устройства. Запоминающее устройство может быть съемным, несъемным или их комбинацией. Примеры аппаратурных устройств содержат твердотельные запоминающие устройства, жесткие диски, оптические дисководы и т.д. Компьютерное устройство 100 содержит один или более процессоров, которые считывают данные от различных объектов, таких как запоминающее устройство 112 или компоненты 120 I/O. Компонент(-ы) 116 представления представляют индикацию данных пользователю или другому устройству. Примеры компоненты представления содержат устройство дисплея, громкоговоритель, печатающий компонент, вибрирующий компонент и т.д. Порты 118 I/O позволяют компьютерному устройству 100 логически соединяться с другими устройствами, в том числе, с компонентами 120 I/O, некоторые из которых могут быть встроенными. Примеры компонент содержат микрофон, джойстик, игровую клавиатуру, спутниковую антенну, сканер, принтер, беспроводное устройство и т.д.The storage device 112 comprises a computer storage medium in the form of a volatile and / or non-volatile storage device. The storage device may be removable, non-removable, or a combination thereof. Examples of hardware devices include solid-state storage devices, hard drives, optical drives, etc. Computer device 100 includes one or more processors that read data from various objects, such as memory 112 or I / O components 120. Presentation component (s) 116 represent an indication of data to a user or other device. Examples of presentation components include a display device, a speaker, a printing component, a vibrating component, etc. The I / O ports 118 allow the computer device 100 to logically connect to other devices, including I / O components 120, some of which may be embedded. Examples of components include a microphone, joystick, gaming keyboard, satellite dish, scanner, printer, wireless device, etc.

Обратимся теперь к фиг.2, на которой показан пример схемы системной архитектуры 200, пригодной для использования при реализации вариантов осуществления настоящего изобретения в соответствии с вариантом осуществления настоящего изобретения. Специалисты в данной области техники должны понимать и оценить, что пример системной архитектуры 200, показанный на фиг.2, является просто примером одной из пригодных компьютерных сред и не предназначен предлагать какое-либо ограничение в отношении объема использования или функциональных возможностей настоящего изобретения. Пример системной архитектуры 200 никак не должен интерпретироваться как обладающий какой-либо зависимостью или выдвигающим требования, относящиеся к какому-либо одиночному компоненту или комбинации компонент, показанных здесь.Turning now to FIG. 2, an example system architecture 200 is shown suitable for use in implementing embodiments of the present invention in accordance with an embodiment of the present invention. Those skilled in the art should understand and appreciate that the example system architecture 200 shown in FIG. 2 is merely an example of one suitable computer environment and is not intended to offer any limitation as to the scope of use or functionality of the present invention. An example of a system architecture 200 should in no way be interpreted as having any dependency or imposing requirements related to any single component or combination of components shown here.

Как показано на чертеже, системная архитектура 200 может содержать распределенную компьютерную среду, где устройство 215 клиента оперативно соединяется с механизмом 290 естественного языка, который, в свою очередь, оперативно соединяется с хранилищем 220 данных. В вариантах осуществления настоящего изобретения, которые реализуются в распределенных компьютерных средах, оперативная связь относится к соединению устройства 215 клиента и хранилища 220 данных с механизмом 290 естественного языка и другим онлайновым компонентам через соответствующие соединения. Эти соединения могут быть проводными или беспроводными. Примеры конкретных вариантов осуществления с проводными средствами в пределах объема настоящего изобретения содержат USB-соединения и кабельные соединения через сеть (не показаны) или шину или другой канал, который связывает компоненты в пределах единого механизма. Примеры конкретных беспроводных вариантов осуществления в пределах объема настоящего изобретения содержат беспроводную сеть ближнего действия и радиочастотную технологию.As shown in the drawing, system architecture 200 may comprise a distributed computing environment where the client device 215 is operatively connected to a natural language mechanism 290, which, in turn, is operatively connected to the data storage 220. In embodiments of the present invention that are implemented in distributed computing environments, live communication relates to connecting a client device 215 and data storage 220 to a natural language engine 290 and other online components through appropriate connections. These connections can be wired or wireless. Examples of specific embodiments with wired means within the scope of the present invention comprise USB connections and cable connections over a network (not shown) or a bus or other channel that links components within a single mechanism. Examples of specific wireless embodiments within the scope of the present invention comprise a short-range wireless network and radio frequency technology.

Следует понять и оценить, что значение выражения "беспроводная сеть ближнего действия" не означает ограничения и должно интерпретироваться широко, чтобы содержать, по меньшей мере, следующие технологии: закрытые беспроводные периферийные устройства (NWP); беспроводные радиоинтерференционные сети ближнего диапазона (например, беспроводная персональная сеть (wPAN), беспроводная локальная сеть (wLAN), беспроводная глобальная сеть (wWAN), технология Bluetooth™, и т.п.); беспроводная одноранговая связь (например, ультраширокополосная радиосвязь); и любой протокол, который поддерживает беспроводную передачу данных между устройствами. Дополнительно, люди, знакомые с областью техники, к которой относится изобретение, должны понимать, что беспроводная сеть ближнего диапазона может быть осуществлена различными способами передачи данных (например, спутниковая передача, сеть передачи данных и т.д.). Поэтому подчеркивается, что варианты осуществления связи между устройством 215 клиента, хранилищем 220 данных и механизмом 290 естественного языка, например, не ограничиваются описанными примерами, но охватывают большое разнообразие способов связи. В другом варианте осуществления компьютерное устройство может внутренне обладать функциональными возможностями компонента 250 семантической интерпретации, тем самым облегчая зависимость от проводной или беспроводной связи.It should be understood and appreciated that the meaning of the term "short-range wireless network" does not mean limitation and should be interpreted broadly to include at least the following technologies: closed wireless peripheral devices (NWP); short-range wireless radio interference networks (for example, wireless personal area network (wPAN), wireless local area network (wLAN), wireless wide area network (wWAN), Bluetooth ™ technology, etc.); wireless peer-to-peer communication (for example, ultra-wideband radio communication); and any protocol that supports wireless data transfer between devices. Additionally, people who are familiar with the technical field to which the invention relates should understand that a near-field wireless network can be implemented in various ways of data transmission (for example, satellite transmission, data network, etc.). Therefore, it is emphasized that communication options between the client device 215, the data storage 220 and the natural language engine 290, for example, are not limited to the described examples, but cover a wide variety of communication methods. In another embodiment, the computer device may internally have the functionality of semantic interpretation component 250, thereby facilitating dependence on wired or wireless communications.

Примерная системная архитектура 200 содержит устройство 215 клиента, в частности, для поддержки работы устройства 275 представления. В примере варианта осуществления, где устройство 215 клиента является, например, мобильным устройством, устройство представления (например, дисплей с сенсорным экраном) может быть расположено на устройстве 215 клиента. Кроме того, устройство 215 клиента может принимать форму различных типов компьютерных устройств. Только для примера, устройство 215 клиента может быть персональным вычислительным устройством (например, компьютерным устройством 100, показанным на фиг.1), карманным устройством (например, персональным цифровым помощником), мобильным устройством (например, ноутбуком, сотовым телефоном, медиапроигрывателем), электронным устройством потребителя, различными серверами и т.п. Дополнительно, компьютерное устройство может содержать два или более электронных устройства, выполненных с возможностью совместного использования ими информации.An exemplary system architecture 200 comprises a client device 215, in particular, to support the operation of the presentation device 275. In an example embodiment, where the client device 215 is, for example, a mobile device, a presentation device (eg, a touch screen display) may be located on the client device 215. In addition, client device 215 may take the form of various types of computer devices. By way of example only, the client device 215 may be a personal computing device (e.g., the computer device 100 shown in Fig. 1), a handheld device (e.g., a personal digital assistant), a mobile device (e.g., a laptop, cell phone, media player), electronic consumer device, various servers, etc. Additionally, the computer device may comprise two or more electronic devices configured to share information.

В вариантах осуществления, как обсуждалось выше, устройство 215 клиента содержит или оперативно подключается к устройству 275 представления, выполненному с возможностью представления дисплея 295 интерфейса пользователя (UI) на устройстве 275 представления. Устройство 275 представления может быть выполнено с возможностью представления в виде любого устройства дисплея, которое способно представлять информацию пользователю, такого как монитор, панель электронного дисплея, сенсорный экран, жидкокристаллический дисплей (LCD), плазменный экран, один или более светоизлучающих диодов (LED), лампы накаливания, лазер, электролюминесцентный источник освещения, химический источник света, гибкий световод и/или источник флуоресцентного света или любой другой тип дисплея или может содержать отражающую поверхность, на которую проектируется визуальная информация. Хотя выше были описаны несколько различных конфигураций устройства 275 представления, специалисты в данной области техники должны понимать, что в качестве устройства 275 представления могут использоваться различные типы устройств представления, которые представляют информацию, и что варианты осуществления настоящего изобретения не ограничиваются теми устройствами 275 представления, которым показаны и описаны.In embodiments, as discussed above, the client device 215 comprises or is operatively connected to a presentation device 275 configured to present a user interface (UI) display 295 to the presentation device 275. The presentation device 275 may be configured to be presented in the form of any display device that is capable of presenting information to a user, such as a monitor, an electronic display panel, a touch screen, a liquid crystal display (LCD), a plasma screen, one or more light emitting diodes (LEDs), incandescent lamps, a laser, an electroluminescent light source, a chemical light source, a flexible light guide and / or a fluorescent light source, or any other type of display, or may contain a reflective surface The surface onto which visual information is projected. Although several different configurations of the presentation device 275 have been described above, those skilled in the art should understand that various types of presentation devices that represent information can be used as the presentation device 275, and that embodiments of the present invention are not limited to those presentation devices 275 shown and described.

В одном примере варианта осуществления дисплей 295 UI, представляющий устройство 275 представления, выполнен с возможностью представления Web-страницы (не показана), которая связана с механизмом 290 естественного языка и/или создателем содержимого. В вариантах осуществления Web-страница может показывать область входа в поиск, которая принимает запрос, и результаты поиска, которые обнаруживаются посредством поиска семантического индекса с помощью запроса. Запрос может быть предоставлен пользователем вручную в область входа в поиск или может быть создан автоматически программным обеспечением. Кроме того, как более подробно обсуждается ниже, запрос может содержать одно или более ключевых слов, которые, когда предоставлены, принуждают механизм 290 естественного языка идентифицировать соответствующие результаты поиска, которые наиболее соответствуют ключевым словам в запросе.In one example embodiment, the UI display 295 representing the presentation device 275 is configured to present a Web page (not shown) that is associated with a natural language engine 290 and / or a content creator. In embodiments, the Web page may show a search entry area that accepts the query, and search results that are detected by searching the semantic index using the query. The request can be submitted manually by the user to the search entry area or can be created automatically by the software. In addition, as discussed in more detail below, the query may contain one or more keywords, which, when provided, force the natural language engine 290 to identify the relevant search results that most closely match the keywords in the query.

Механизм 290 естественного языка, показанный на фиг.2, может принимать форму различных типов компьютерных устройств, таких как, например, компьютерное устройство 100, описанное выше со ссылкой на фиг.1. Только для примера и не для создания ограничения, механизм 290 естественного языка может быть персональным компьютером, настольным компьютером, ноутбуком, электронным устройством потребителя, карманным устройством (например, персональный цифровой секретарь), различными удаленными серверами (например, сетевой канал обслуживания сервера), оборудованием обработки и т.п. Следует отметить, однако, что изобретение не ограничивается реализацией на таких компьютерных устройствах, а может быть реализовано на любом из множества различных типов компьютерных устройств в пределах объема вариантов осуществления настоящего изобретения.The natural language mechanism 290 shown in FIG. 2 may take the form of various types of computer devices, such as, for example, the computer device 100 described above with reference to FIG. 1. By way of example only and not to create a limitation, the natural language mechanism 290 may be a personal computer, a desktop computer, a laptop, a consumer electronic device, a handheld device (e.g., a personal digital assistant), various remote servers (e.g., a server’s network service channel), equipment processing, etc. It should be noted, however, that the invention is not limited to being implemented on such computer devices, but can be implemented on any of a variety of different types of computer devices within the scope of embodiments of the present invention.

Дополнительно, в одном случае, механизм 290 естественного языка выполнен с возможностью работы в качестве механизма поиска, предназначенного для поиска информации в Интернете и/или в хранилище 220 данных и для получения результатов поиска из информации в рамках объема поиска в ответ на предоставление запроса через устройство 215 клиента. В одном варианте осуществления механизм поиска содержит один или более сетевых поисковых агентов, которые исследуют имеющиеся в наличии данные (например, группы новостей, базы данных, открытые каталоги, хранилище 220 данных и т.п.), доступные через Интернет, и создают семантический индекс 260, содержащий адреса вместе с сущностью Web-страниц или других документов, хранящихся в представительном формате. В другом варианте осуществления механизм поиска способен действовать так, чтобы облегчить идентификацию и извлечение результатов поиска (например, листинг, таблица, ранжированный порядок Web-адресов и т.п.) из семантического индекса, которые релевантны поисковым терминам в пределах поданного запроса. К поисковому механизму могут обращаться интернет-пользователи через приложение Web-браузера, расположенное на устройстве 215 клиента. Соответственно, пользователи могут проводить интернет-поиск, вводя поисковые термины в область ввода для поиска (например, показ на дисплее 295 UI, созданный приложением Web-браузера, связанным с механизмом поиска). В другой конфигурации, поиск может проводиться посредством ввода запроса в один или более системных индексов, чтобы извлечь содержимое из местного хранилища банка информации, такого как жесткий диск пользователя.Additionally, in one case, the natural language mechanism 290 is configured to operate as a search engine designed to search for information on the Internet and / or data storage 220 and to retrieve search results from information within the search volume in response to providing a request through the device 215 customers. In one embodiment, the search engine comprises one or more online search agents that examine available data (eg, newsgroups, databases, open directories, data warehouse 220, etc.) available over the Internet and create a semantic index 260, containing addresses along with the essence of Web pages or other documents stored in a representative format. In another embodiment, the search engine is operable to facilitate the identification and retrieval of search results (e.g., listing, table, ranked order of Web addresses, etc.) from a semantic index that are relevant to search terms within the submitted query. Internet users can access the search engine through a Web browser application located on the client device 215. Accordingly, users can conduct an Internet search by entering search terms into the search input field (for example, displaying a UI 295 created by a web browser application associated with the search engine). In another configuration, a search can be performed by entering a query in one or more system indexes to retrieve content from a local repository of a data bank, such as a user's hard drive.

Хранилище 220 данных обычно выполняется с возможностью хранения информации, связанной с онлайновыми позициями и/или материалами, которые обладают ассоциированным с ним пригодным для поиска содержимым (например, документы, которые содержат Web-сайт Wikipedia). В различных вариантах осуществления такая информация может содержать, в частности, документы, содержимое Web-страниц/сайта, электронные материалы, доступные через Интернет, местную сеть интранет или запоминающее устройство или жесткий диск компьютера пользователя и другие типичные ресурсы, доступные для механизма поиска. Кроме того, хранилище 220 данных может быть выполнено с возможностью поиска для соответствующего доступа к хранящейся информации. В отдельном случае, разрешение соответствующего доступа содержит выбор или фильтрацию подмножества документов в хранилище данных согласно предоставленным критериям.Data warehouse 220 is typically configured to store information related to online positions and / or materials that have associated searchable content (e.g., documents that contain a Wikipedia website). In various embodiments, such information may include, in particular, documents, contents of Web pages / website, electronic materials accessible via the Internet, a local intranet or storage device or hard disk of a user's computer and other typical resources available for the search engine. In addition, data storage 220 may be searchable for appropriate access to stored information. In a particular case, the permission of the corresponding access contains the selection or filtering of a subset of documents in the data warehouse according to the provided criteria.

Например, хранилище 220 данных может быть доступно для поиска одного или более документов, выбранных для обработки механизмом 290 естественного языка. В вариантах осуществления механизму 290 естественного языка разрешается свободно просматривать хранилище данных для документов, которые были недавно добавлены или исправлены, чтобы обновлять семантический индекс. Процесс просмотра может выполняться непрерывно, с заранее определенными интервалами, или после индикации, что произошло изменение в одном или более документах, собранных в хранилище 220 данных. Специалисты в данной области техники должны понимать, что информация, хранящаяся в хранилище 220 данных, может иметь перестраиваемую конфигурацию и содержать любую информацию в пределах объема онлайнового поиска. Содержание и объем такой информации никоим образом не предназначены ограничивать объем вариантов осуществления настоящего изобретения. Дополнительно, хотя на чертеже оно показано как единый, независимый компонент, хранилище 220 данных может на деле быть множеством баз данных, например, группой баз данных, части которой могут постоянно находиться на устройстве 215 клиента, механизме 290 естественного языка, другом внешнем компьютерном устройстве (не показано) и/или любой их комбинации.For example, data storage 220 may be available to search for one or more documents selected for processing by natural language engine 290. In embodiments, the natural language engine 290 is allowed to freely browse the data store for documents that have recently been added or fixed to update the semantic index. The viewing process can be performed continuously, at predetermined intervals, or after indicating that a change has occurred in one or more documents collected in the data warehouse 220. Specialists in the art should understand that the information stored in the data warehouse 220 may have a configurable configuration and contain any information within the scope of the online search. The content and scope of such information is in no way intended to limit the scope of embodiments of the present invention. Additionally, although it is shown in the drawing as a single, independent component, the data warehouse 220 may in fact be a plurality of databases, for example, a group of databases, parts of which can reside on a client device 215, a natural language engine 290, and another external computer device ( not shown) and / or any combination thereof.

В целом, механизм 290 естественного языка обеспечивает инструмент оказания помощи пользователям, стремящимся искать и находить информацию в онлайновом режиме. В вариантах осуществления этот инструмент работает посредством применения технологии обработки текстов на естественном языке для вычисления значения прохождений в наборах документов, таких как документы, извлеченные из хранилища 220 данных. Эти значения хранятся в семантическом индексе 260, на который делается ссылка при выполнении поиска. Первоначально, когда пользователь вводит запрос в область входа в поиск, конвейер 205 поиска запроса анализирует запрос пользователя (например, строка символов, законченные слова, фразы, буквенно-цифровые выражения, символы или вопросы) и переводит запрос в структурное представление, использующее семантические взаимоотношения. Это представление, упомянутое в дальнейшем как "высказывание", может использоваться для опроса информации, хранящейся в семантическом индексе 260, чтобы прийти к соответствующим результатам поиска.In general, natural language engine 290 provides a tool to assist users seeking to search and find information online. In embodiments, this tool works by applying natural-language text processing technology to calculate passage values in sets of documents, such as documents extracted from data storage 220. These values are stored in the semantic index 260, which is referenced when performing the search. Initially, when a user enters a query into the search entry area, the query search pipeline 205 analyzes the user's query (for example, a string of characters, completed words, phrases, alphanumeric expressions, characters or questions) and translates the query into a structural representation using semantic relationships. This representation, hereinafter referred to as the “utterance”, can be used to query information stored in the semantic index 260 in order to arrive at relevant search results.

В отдельном случае, информация, хранящаяся в семантическом индексе 260, содержит представления, извлеченные из документов, хранящихся в хранилище 220 данных, или любых других материалов, попадающих в объем онлайнового поиска. Это представление, упоминаемое в дальнейшем как "семантическое представление", связано с интуитивным значением содержимого, выделенного из общего текста, и может быть сохранено в семантическом индексе 260. В вариантах осуществления семантическое представление получается из семантической структуры, используя упорядоченную последовательность терминов-перезаписываемых правил или любую другую эвристику, известную в соответствующей области. В вариантах осуществления "семантическая структура" создается на промежуточном этапе конвейера анализа в соответствии с документом, анализирующим компонент, который преобразует содержимое документа в семантическую структуру, частично используя лексические семантические правила грамматики.In a particular case, the information stored in the semantic index 260 contains representations extracted from documents stored in the data warehouse 220, or any other materials falling within the scope of the online search. This representation, hereinafter referred to as the “semantic representation”, is associated with an intuitive meaning of the content extracted from the general text and can be stored in the semantic index 260. In embodiments, the semantic representation is obtained from the semantic structure using an ordered sequence of terms-rewritable rules or any other heuristic known in the relevant field. In embodiments, a “semantic structure” is created at an intermediate stage in the analysis pipeline in accordance with a document analyzing a component that converts the contents of the document into a semantic structure, in part using lexical semantic rules of grammar.

Архитектура семантического индекса 260 позволяет быстрое сравнение хранящихся семантических представлений с полученными высказываниями, чтобы найти семантические представления, которые совпадают с суждениями, и извлечь документы, отображенные в семантических представлениях, которые релевантны поданному запросу. Соответственно, механизм 290 естественного языка может определить значение требований запроса пользователя из запроса, поданного в интерфейс поиска (например, область ввода для поиска, определенная на дисплее 295 UI), и затем пересмотреть большое количество информации, чтобы найти соответствующие результаты поиска, которые удовлетворят эти нужды.The architecture of the semantic index 260 allows a quick comparison of stored semantic representations with the resulting statements, to find semantic representations that match the judgments, and to extract documents displayed in semantic representations that are relevant to the submitted query. Accordingly, the natural language engine 290 can determine the value of the user query requirements from the query filed in the search interface (for example, the search input area defined on the UI display 295), and then review a large amount of information to find relevant search results that satisfy these needs.

В вариантах осуществления описанный выше процесс может быть осуществлен различными функциональными элементами, которые выполняют один или более этапов для получения релевантных результатов поиска. Эти функциональные элементы содержат компонент 235, анализирующий запрос, компонент 240, анализирующий документ, компонент 245 семантической интерпретации, компонент 250 семантической интерпретации, компонент 255 спецификации грамматики, семантический индекс 260, компонент 265 определения совпадения, и компонент 270 ранжирования. Эти функциональные компоненты 235, 240, 245, 250, 255, 260, 265 и 270, в целом, обращены к индивидуальным модульным подпрограммам программного обеспечения и их сопутствующим аппаратным средствам, которые динамически связаны и готовы для использования с другими компонентами или устройствами.In embodiments, the process described above may be implemented by various functional elements that perform one or more steps to obtain relevant search results. These functional elements comprise a query analysis component 235, a document analysis component 240, a semantic interpretation component 245, a semantic interpretation component 250, a grammar specification component 255, a semantic index 260, a match determination component 265, and a ranking component 270. These functional components 235, 240, 245, 250, 255, 260, 265 and 270 generally address individual modular software routines and their associated hardware that are dynamically connected and ready for use with other components or devices.

Первоначально, хранилище 220 данных, компонент 240 анализа документов и компонент 250 семантической интерпретации содержат конвейер 210 индексации. Во время работы конвейер 210 индексации служит для извлечения семантических представлений из содержимого в пределах документов 230, допущенных в хранилище 220, и создания семантического индекса 260 после сбора семантических представлений. Как обсуждалось выше, после объединения для формирования семантического индекса 260, семантические представления могут сохранять отображение в документах 230 и/или местоположение содержимого внутри документов 230, из которых они были получены. Другими словами, семантический индекс 260 кодирует семантические представления (получаемые из семантических структур, созданных в компоненте 240 анализа документа), созданные и переданные компонентом 250 семантической интерпретации. Однако в других вариантах осуществления компонент 240 анализа документов и компонент 250 семантической интерпретации могут быть выполнены как единый элемент, который не делит обработку текстов на естественном языке на два этапа (то есть, на синтаксический анализ LFG и семантическую интерпретацию), а вместо этого создает семантические представления на едином этапе, не имея отдельного этапа, на котором создаются семантические структуры.Initially, the data warehouse 220, the document analysis component 240, and the semantic interpretation component 250 comprise an indexing pipeline 210. During operation, the indexing pipeline 210 serves to extract semantic representations from the contents within the documents 230 allowed in the repository 220 and to create a semantic index 260 after collecting the semantic representations. As discussed above, after combining to form the semantic index 260, semantic representations can retain the display in documents 230 and / or the location of contents within documents 230 from which they were obtained. In other words, semantic index 260 encodes semantic representations (derived from semantic structures created in document analysis component 240) created and transmitted by semantic interpretation component 250. However, in other embodiments, the document analysis component 240 and the semantic interpretation component 250 can be implemented as a single element that does not divide natural language text processing into two stages (i.e., LFG parsing and semantic interpretation), but instead creates semantic representations at a single stage, without a separate stage at which semantic structures are created.

В целом, компонент 240 анализа документов выполнен с возможностью сбора данных, которые доступны механизму 290 естественного языка. В отдельном случае, сбор данных содержит просмотр хранилища 220 данных, чтобы просканировать содержимое документов 230 или другую информацию, хранящуюся там. Поскольку информация внутри хранилища 220 данных может постоянно обновляться, процесс сбора данных может выполняться с регулярными интервалами, непрерывно или по уведомлению, что в одном или более документах 230 сделано обновление.In general, document analysis component 240 is configured to collect data that is available to natural language engine 290. In a particular case, the data collection comprises viewing a data warehouse 220 to scan the contents of documents 230 or other information stored there. Since information within the data warehouse 220 may be constantly updated, the data collection process may be carried out at regular intervals, continuously, or upon notification that one or more documents 230 have been updated.

После сбора содержимого из документов 230 и других доступных источников, компонент 240 анализа документов выполняет различные процедуры, чтобы подготовить содержимое для его семантического анализа. Эти процедуры могут содержать извлечение текста, распознавание объекта и синтаксический анализ. Процедура извлечения текста, по существу, содержит извлечение таблиц, изображений, шаблонов и текстовых разделов данных из содержимого документов 230 и преобразование их из исходного онлайнового формата в формат, пригодный для использования (например, язык гипертекстовой разметки (HTML)), в то же время сохраняя связи с документами 230, из которых они извлечены, чтобы облегчить отображение. Пригодный для использования формат содержимого может затем быть разделен на предложения. В одном случае, разбивка содержимого на предложения содержит ассемблирование строки символов в качестве ввода, применение набора правил, чтобы тестировать строку символов на наличие определенных свойств, и деление содержимого на предложения, основываясь на конкретных свойствах. Только для примера, конкретные свойства тестируемого содержимого могут содержать пунктуацию и преобразование букв в прописные, чтобы определить начало и конец высказывания. Когда последовательность предложений установлена, каждое индивидуальное предложение исследуется, чтобы обнаружить в нем слова и потенциально распознать каждое слово как объект (например, "Гинденбург"), событие (например, "Вторая мировая война"), время (например, "Сентябрь"), глагол или любую другую категорию слова, которая может быть использована для способствования различению между словами или для понимания значения соответствующего высказывания.After collecting content from documents 230 and other available sources, document analysis component 240 performs various procedures to prepare the content for semantic analysis. These procedures may include text extraction, object recognition, and parsing. The text extraction procedure essentially involves extracting tables, images, templates and text sections of data from the contents of documents 230 and converting them from the original online format to a usable format (for example, hypertext markup language (HTML)), at the same time maintaining links to documents 230 from which they are extracted to facilitate display. A usable content format can then be divided into sentences. In one case, breaking down content into sentences involves assembling a character string as input, applying a set of rules to test a character string for certain properties, and dividing the content into sentences based on specific properties. By way of example only, the specific properties of the test content may include punctuation and capitalization to determine the beginning and end of a statement. When a sequence of sentences is established, each individual sentence is examined to find words in it and potentially recognize each word as an object (for example, "Hindenburg"), event (for example, "World War II"), time (for example, "September"), a verb or any other category of a word that can be used to help distinguish between words or to understand the meaning of the corresponding utterance.

Процедура распознавания объекта помогает распознать, какие слова являются названиями, поскольку они обеспечивают конкретные ответы на ключевые слова, связанные с вопросом, из запроса (например, кто, где, когда). В вариантах осуществления распознавание слов содержит идентифицирующие слова, такие как названия, и аннотирование слова с тэгом, чтобы облегчить извлечение при опросе семантического индекса 260. В отдельном случае, идентификация таких слов, как названия, содержит поиск слов в заранее определенном списке названий, чтобы определить, имеется ли совпадение. Если совпадения не существует, то для предположения, является ли слово названием, может использоваться статистическая информация. Например, статистическая информация может помочь при распознавании вариации сложного названия, такого как "USS Enterprise" (военный корабль США "Энтерпрайз"), которое может иметь несколько общих вариацией при проверке правописания.The object recognition procedure helps to recognize which words are names, as they provide specific answers to keywords related to a question from a query (for example, who, where, when). In embodiments, the word recognition comprises identifying words, such as names, and annotating the word with a tag to facilitate retrieval of the semantic index 260 when polled. In a particular case, the identification of words such as names includes searching for words in a predetermined list of names to determine if there is a match. If there is no match, then statistical information may be used to suggest whether the word is a name. For example, statistical information can help you recognize variations of a complex name, such as "USS Enterprise" (USS Enterprise), which may have several common variations when checking spelling.

Процедура синтаксического анализа, когда она осуществляется, обеспечивает возможность проникновения в сущность структуры предложений, идентифицированных выше. В отдельном случае, эта способность проникновения в сущность обеспечивается применением правил, содержащихся в структуре компонента 255 спецификации грамматики. При применении эти правила или грамматика ускоряют анализ предложений для выделения представления взаимоотношений среди слов в предложениях. Как обсуждалось выше, эти представления упоминаются как семантические структуры и позволяют компоненту 250 семантической интерпретации фиксировать критическую информацию о грамматической структуре предложения (например, глагол, подлежащее, дополнение, и т.п.).The parsing procedure, when carried out, provides the opportunity to penetrate into the essence of the sentence structure identified above. In a separate case, this penetration into the essence is ensured by applying the rules contained in the structure of component 255 of the grammar specification. When applied, these rules or grammar accelerate sentence analysis to highlight the presentation of relationships among words in sentences. As discussed above, these representations are referred to as semantic structures and allow the semantic interpretation component 250 to capture critical information about the grammatical structure of a sentence (for example, a verb, a subject, a complement, etc.).

Компонент 250 семантической интерпретации обычно выполняется с возможностью диагностики роли каждого слова в семантической структуре(-ах), созданной компонентом 240 анализа документов, распознавая семантические взаимоотношения между словами. Первоначально, диагностирование может содержать анализ грамматической организации семантической структуры и разделение ее на логические утверждения, каждое из которых выражает отдельную идею и конкретные факты. Эти логические утверждения могут быть дополнительно проанализированы, чтобы определить функцию каждого из них в последовательности слов, которая содержит утверждение. В отдельном случае, определение функции последовательности слов содержит использование упорядоченной последовательности правил переписывания терминов или любой другой эвристики, известной в соответствующей области.The semantic interpretation component 250 is typically configured to diagnose the role of each word in the semantic structure (s) created by the document analysis component 240, recognizing semantic relationships between the words. Initially, the diagnosis may include an analysis of the grammatical organization of the semantic structure and its division into logical statements, each of which expresses a separate idea and specific facts. These logical statements can be further analyzed to determine the function of each of them in a sequence of words that contains a statement. In a particular case, the definition of a function of a sequence of words includes the use of an ordered sequence of rules for rewriting terms or any other heuristic known in the corresponding field.

При необходимости, основываясь на функции или роли каждого слова, одна или более последовательностей слов может быть расширена, чтобы содержать синонимы (то есть, связи с другими словами, которые соответствуют расширенному конкретному значению слова) или гиперонимы (то есть, связи с другими словами, которые обычно относятся к расширенному общему значению слова). Это расширение слов, функция, которая обслуживает каждое слово в выражении (обсуждалось выше), грамматические взаимоотношения каждой последовательности слов и любая другая информация о семантическом представлении, распознанном компонентом 250 семантической интерпретации, составляют семантическое представление, которое может храниться в семантическом индексе 260 как семантическое представление.If necessary, based on the function or role of each word, one or more sequences of words can be expanded to contain synonyms (i.e., links to other words that correspond to the expanded specific meaning of the word) or hyperonyms (i.e., links to other words, which usually refers to the extended general meaning of the word). This extension of words, the function that serves each word in an expression (discussed above), the grammatical relationships of each sequence of words, and any other information about the semantic representation recognized by the semantic interpretation component 250, constitute a semantic representation that can be stored in semantic index 260 as a semantic representation .

Семантический индекс 260 служит для хранения семантического представления, полученного с помощью одного или более компонент конвейера 210 индексации, и может быть выполнен любым способом, известным в соответствующей области техники. Для примера, семантический индекс может быть выполнен как инвертированный индекс, который структурно подобен обычным индексам механизма поиска. В этом примере варианта осуществления инвертированный индекс является быстродоступным для поиска базой данных, вводы в которую являются словами с указателями на документы 230 и местоположения в ней, в которых появляются эти слова. Соответственно, при записи семантических структур в семантический индекс 260 каждое слово и сопутствующая функция индексируются вместе с указателями на предложения в документах, в которых появлялось семантическое слово. Эта структура семантического индекса 260 позволяет компоненту 265 определения совпадения эффективно получать доступ, перемещаться и определять совпадение с хранящейся информацией, чтобы получать значимые результаты поиска, которые соответствуют поданному запросу.The semantic index 260 is used to store the semantic representation obtained using one or more components of the indexing pipeline 210, and can be performed by any method known in the relevant field of technology. For example, a semantic index can be implemented as an inverted index, which is structurally similar to conventional search engine indexes. In this example embodiment, the inverted index is a quick searchable database whose entries are words with pointers to documents 230 and the locations in which these words appear. Accordingly, when writing semantic structures to the semantic index 260, each word and associated function are indexed along with pointers to sentences in the documents in which the semantic word appeared. This structure of the semantic index 260 allows the match determination component 265 to effectively access, navigate and match with stored information in order to obtain meaningful search results that match the submitted request.

Устройство 215 клиента, компонент 235 анализа запроса и компонент 245 семантической интерпретации содержат конвейер 205 формирования запроса. Подобно конвейеру 210 индексации, конвейер 205 формирования запроса извлекает значимую информацию из последовательности слов. Однако в отличие от обработки проходов внутри документов 230, конвейер 205 формирования запроса обрабатывает слова, поданные в рамках запроса 225. Например, компонент 235 анализа запроса принимает запрос 225 и выполняет различные процедуры, чтобы подготовить слова для их семантического анализа. Эти процедуры могут быть подобны процедурам, используемым компонентом 240 анализа документов, таким как извлечение текста, распознавание объекта и синтаксический анализ. Кроме того, структура запроса 225 может быть идентифицирована, применяя правила, хранящиеся в структуре компонента 255 спецификации грамматики и в компоненте 245 семантической интерпретации, таким образом, получая значимое представление или высказывание запроса 225.The client device 215, the query analysis component 235 and the semantic interpretation component 245 comprise a query generation pipeline 205. Like the indexing pipeline 210, the query generation pipeline 205 extracts meaningful information from a sequence of words. However, unlike the processing of passages within documents 230, the query generation pipeline 205 processes the words filed as part of the query 225. For example, the query analysis component 235 receives the query 225 and performs various procedures to prepare the words for their semantic analysis. These procedures may be similar to the procedures used by the document analysis component 240, such as text extraction, object recognition, and parsing. In addition, the structure of the query 225 can be identified by applying the rules stored in the structure of the grammar specification component 255 and the semantic interpretation component 245, thereby obtaining a meaningful representation or statement of the query 225.

В вариантах осуществления компонент 245 семантической интерпретации может обрабатывать семантическое представление запроса, по существу, способом, сопоставимым с тем, которым компонент 250 семантической интерпретации интерпретирует семантическую структуру, полученную из прохождения по тексту в документе 230. В других вариантах осуществления компонент 245 семантической интерпретации может идентифицировать грамматические и/или семантические взаимоотношения ключевых слов в пределах строки ключевых слов (например, вопроса или фразы), которая содержит запрос 225. Для примера, идентификация грамматических и/или семантических взаимоотношений содержит идентификацию того, функционирует ли слово или фраза как подлежащее (агент действия), дополнение, сказуемое, косвенное дополнение или временное местоположение высказывания запроса 225. В другом случае высказывание оценивается так, чтобы идентифицировать логическую языковую структуру, связанную с каждым из ключевых слов. Для примера, оценка может содержать один или более следующих этапов: определение функции, по меньшей мере, одного из ключевых слов; основываясь на функции, замена ключевых слов логической переменной, которая охватывает множество значений (например, ассоциируя с функцией множество значений); и запись этих значений в высказывание запроса. Это высказывание запроса 225, ключевые слова и информация, извлеченная из высказывания и/или ключевых слов, затем посылаются к компоненту 265 определения совпадения для сравнения с семантическими представлениями, извлеченными из документов 230, и сохраняются в семантическом индексе 260.In embodiments, the semantic interpretation component 245 may process the semantic representation of the query essentially in a manner comparable to that of the semantic interpretation component 250 that interprets the semantic structure obtained from the passage through the text in document 230. In other embodiments, the semantic interpretation component 245 may identify the grammatical and / or semantic relationships of the keywords within the string of keywords (e.g., question or phrase) that the one contains the query 225. For example, the identification of grammatical and / or semantic relationships contains the identification of whether the word or phrase functions as a subject (action agent), a complement, a predicate, an indirect complement or a temporary location of a query statement 225. In another case, the sentence is evaluated as follows to identify the logical language structure associated with each of the keywords. For example, an assessment may comprise one or more of the following steps: determining a function of at least one of the keywords; based on a function, replacing keywords with a logical variable that spans multiple values (for example, associating multiple values with a function); and writing these values to the query statement. This query statement 225, keywords and information extracted from the statement and / or keywords are then sent to the match determination component 265 for comparison with semantic representations extracted from documents 230 and stored in semantic index 260.

В примере варианта осуществления компонент 265 определения совпадения сравнивает высказывания запросов 225 с семантическими представлениями в семантическом индексе 260, чтобы установить совпадение с семантическими представлениями. Эти совпадающие семантические представления могут отображаться обратно в документы 230, из которых они были извлечены, посредством ассоциирования документов 230 и определения местоположения в них, из которых были получены семантические представления. Эти документы 230, направляемые ассоциированными местоположениями, собираются и сортируются компонентом 270 ранжирования. Сортировка может быть выполнена любым известным способом в соответствующей области техники и может содержать, в частности, ранжирование в соответствии с близостью совпадения, перечисление на основе популярности возвращенных документов 230, или сортировка, основанное на атрибутах пользователя, предоставляющего запрос 225. Эти ранжированные документы 230 содержат результат 285 поиска и передаются в устройство 275 представления для вывода в соответствующем формате на дисплей 295 UI.In an example embodiment, the match determination component 265 compares the statements of the queries 225 with the semantic representations in the semantic index 260 to match the semantic representations. These matching semantic representations can be mapped back to the documents 230 from which they were extracted by associating the documents 230 and locating them from which the semantic representations were derived. These documents 230, sent by associated locations, are collected and sorted by ranking component 270. Sorting can be performed by any known method in the relevant field of technology and may include, in particular, ranking according to proximity of match, listing based on the popularity of the returned documents 230, or sorting based on the attributes of the user submitting the request 225. These ranking documents 230 contain the search result 285 and transmitted to the presentation device 275 for output in the appropriate format to the UI display 295.

Продолжая ссылаться на фиг.2, этот пример системной архитектуры 200 является всего лишь одним примером подходящей среды, которая может быть реализована, чтобы выполнить аспекты настоящего изобретения, и не предназначен предполагать какое-либо ограничение в отношении объема использования или функциональных возможностей изобретения. Ни показанный на чертеже пример системной архитектуры 200, ни механизм 290 естественного языка, не должны интерпретироваться как имеющие какую-либо зависимость или требования, относящиеся к любому компоненту или комбинации компонент 235, 240, 245, 250, 255, 260, 265 и 270, как показано на чертеже. В некоторых вариантах осуществления один или более компонент 235, 240, 245, 250, 255, 260, 265 и 270 могут быть реализованы как автономные устройства. В других вариантах осуществления один или более компонент 235, 240, 245, 250, 255, 260, 265 и 270 могут быть непосредственно интегрированы в устройство 215 клиента. Специалистам в данной области техники должно быть понятно, что компоненты 235, 240, 245, 250, 255, 260, 265 и 270, показанные на фиг.2, являются примерами по своему характеру и количеству и не должны рассматриваться как ограничение.Continuing to refer to FIG. 2, this example of a system architecture 200 is just one example of a suitable environment that can be implemented to fulfill aspects of the present invention, and is not intended to imply any limitation as to the scope of use or functionality of the invention. Neither the example system architecture 200 shown in the drawing, nor the natural language mechanism 290 should be interpreted as having any dependency or requirements relating to any component or combination of components 235, 240, 245, 250, 255, 260, 265 and 270, as shown in the drawing. In some embodiments, one or more of the components 235, 240, 245, 250, 255, 260, 265, and 270 may be implemented as stand-alone devices. In other embodiments, one or more components 235, 240, 245, 250, 255, 260, 265, and 270 can be directly integrated into client device 215. Those of skill in the art would understand that components 235, 240, 245, 250, 255, 260, 265, and 270 shown in FIG. 2 are examples in nature and quantity and should not be construed as limiting.

Соответственно, любое число компонент может использоваться, чтобы достигнуть желательных функциональных возможностей в пределах объема вариантов осуществления настоящего изобретения. Хотя различные компоненты на фиг.2 для ясности показаны четкими линиями, в действительности, деление различных компонентов не настолько четко и, образно говоря, будет более точно, если линии будут полупрозрачными или нечеткими. Дополнительно, хотя некоторые компоненты на фиг.2 изображены как одиночные блоки, описания являются примерами по своему характеру и количеству и не должны рассматриваться как ограничение (например, хотя показано только одно устройство 275 представления, к устройству 215 клиента средствами связи может быть подключено гораздо больше таких устройств).Accordingly, any number of components can be used to achieve the desired functionality within the scope of embodiments of the present invention. Although the various components in FIG. 2 are shown with clear lines for clarity, in reality, the division of the various components is not so clear and, figuratively speaking, will be more accurate if the lines are translucent or fuzzy. Additionally, although some components in FIG. 2 are depicted as single blocks, descriptions are examples in nature and quantity and should not be construed as limiting (for example, although only one presentation device 275 is shown, much more can be connected to the client device 215 by communication such devices).

На фиг.3 показана схема 300 семантического представления, созданного из текстовой части в пределах документа в соответствии с вариантом осуществления настоящего изобретения. Текстовые части могут быть извлечены из содержимого одного или более документов, например, которые могут храниться в хранилище данных для простоты доступа во время индексации. В одном варианте осуществления документ, из которого извлечены текстовые части, является Web-документом, но в других вариантах осуществления документ может быть любого рода документом на основе текста из любого типа сборника документов. Любому специалисту в данной области техники должно стать понятным, что может быть извлечен любой тип документа, такой как документы, извлеченные из любого сборника документа или даже извлеченные для анализа конкретного документа с помощью сборника. Текстовые части могут содержать косвенную речь и другие сообщения о занимаемой позиции, которые могут идентифицироваться множеством слов, найденных в текстовой части, таких как, конечно, не для ограничения, "осудить", "сказать", "полагать", "желать", "отрицать" и т.д. Эти слова идентифицируются в сообщениях об отношении, потому что они описывают отношение человека к определенной теме. Косвенная речь может принимать форму прямых цитирований человека или может быть косвенной речью второго лица. Согласно последующим примерам, показанным и описанным, станут очевидны множество форм косвенной речи и других сообщений об отношении, в том числе, упомянутых выше.FIG. 3 shows a diagram 300 of a semantic representation created from a text part within a document in accordance with an embodiment of the present invention. Text parts can be extracted from the contents of one or more documents, for example, which can be stored in a data warehouse for ease of access during indexing. In one embodiment, the document from which the text parts are extracted is a Web document, but in other embodiments, the document can be any kind of text-based document from any type of collection of documents. It should be clear to any person skilled in the art that any type of document can be extracted, such as documents extracted from any collection of a document or even extracted to analyze a specific document using a collection. Text parts may contain indirect speech and other messages about the position taken, which can be identified by a variety of words found in the text part, such as, of course, not for limitation, “condemn”, “say”, “believe”, “wish”, “ deny "etc. These words are identified in messages of attitude because they describe a person’s relationship to a particular topic. Indirect speech can take the form of direct quotations from a person or it can be an indirect speech of a second person. According to the following examples, shown and described, many forms of indirect speech and other communications about the relationship, including those mentioned above, will become apparent.

Семантические представления обычно охватывают три основных задачи, в том числе, в частности, значения различных слов, взаимоотношения между словами и контексты. Семантические представления позволяют более полное понимание текста, чем простая зависимость от ключевых слов из запроса, например, совпадающих со словами в документах (например, Web-документах). Здесь взаимоотношения определяются так, чтобы позволить более глубокий анализ текста. Схема 300 содержит текстовую часть 305, первый уровень 310 ассоциации, второй уровень 320 ассоциации и третий уровень 330 ассоциации. Каждый уровень ассоциации 310, 320, и 330 содержит один или более элементов и один или более реляционных элементов. В варианте осуществления, показанном на фиг.3, реляционные элементы представляются позициями 312, 314, 316, 322, 332 и 334. Элементы содержат слова "осудить", "Буш", "Вашингтон", "призывы", "уйти", "США", и "Ирак". Также, для каждого уровня ассоциации показано действие по сообщению информации, которыми здесь являются слова "осудить", "призывы", и "уйти". Также, в некоторых вариантах осуществления могут существовать некоторые слова, являющиеся элементами, но также категоризируются как действия по информации, такие как "осудить", "призывы" и "уйти".Semantic concepts usually cover three main tasks, including, in particular, the meanings of different words, the relationship between words, and contexts. Semantic representations allow a more complete understanding of the text than a simple dependence on keywords from a query, for example, matching words in documents (for example, Web documents). Here, relationships are defined to allow a deeper analysis of the text. Scheme 300 includes a text portion 305, a first association level 310, a second association level 320, and a third association level 330. Each association level 310, 320, and 330 contains one or more elements and one or more relational elements. In the embodiment shown in FIG. 3, the relational elements are represented by 312, 314, 316, 322, 332 and 334. The elements contain the words “denounce,” “Bush,” “Washington,” “appeals,” “leave,” “ USA, and Iraq. Also, for each level of association, the action of communicating information is shown, which is the words “denounce”, “appeals”, and “leave” here. Also, in some embodiments, some words that are elements may exist, but are also categorized as information actions, such as “denounce,” “appeals,” and “leave.”

Чтобы ясно продемонстрировать вариант осуществления, показанный на фиг.3, семантическое представление показывается для текстовой части 305, которая является следующей: "В Вашингтоне Джордж Буш осудил призывы к США уйти из Ирака". Следует отметить, что фиг.3 является схемой семантического представления, описанной ниже. Пример предоставлен как в формате схемы, так и семантического представления только в целях демонстрации. В некоторых вариантах осуществления семантические представления создаются и хранятся в семантическом индексе, таком как семантический индекс 260, показанный на фиг.2, но схемы не создаются. В этих вариантах осуществления диаграммы приведены только для иллюстрации и примера.To clearly demonstrate the embodiment shown in FIG. 3, a semantic representation is shown for text portion 305, which is: “In Washington, George W. Bush condemned calls for the United States to leave Iraq.” It should be noted that FIG. 3 is a semantic representation diagram described below. An example is provided in both a schematic format and a semantic presentation for demonstration purposes only. In some embodiments, semantic representations are created and stored in a semantic index, such as the semantic index 260 shown in FIG. 2, but no schemas are created. In these embodiments, the diagrams are provided for illustration and example only.

Контекст (высший): агент DNC: BContext (highest): DNC Agent : B

Контекст (высший): тема DNC: Контекст (3)Context (supreme): DNC topic : Context (3)

Контекст (3)(высший): местоположение DNC: WContext (3) (highest): DNC location : W

Контекст (3): тема CL: Контекст (5)Context (3): CL Theme : Context (5)

Контекст (5): агент WTHD: UContext (5): WTHD Agent : U

Контекст (5): местоположение WTHD: IContext (5): location WTHD: I

слово: B [Джордж_Буш, человек] Контекст(высший)word: B [George_Bush, man] Context (highest)

слово: DNC [осудить, критиковать, сказать] Контекст(высший)word: DNC [condemn, criticize, say] Context (supreme)

слово: W [Вашингтон_D", город, местоположение] Контекст(высший)word: W [Washington_D ", city, location] Context (highest)

слово: CL [призыв, сказать] Контекст (3)word: CL [call, say] Context (3)

слово: WTHD [уход, движение] Контекст (5)word: WTHD [care, movement] Context (5)

слово: U [Соединенные_Штаты_Америки, страна, местоположение] Контекст (5)word: U [United States of America, country, location] Context (5)

слово: I [Ирак, страна, местоположение] Контекст (5)word: I [Iraq, country, location] Context (5)

Как показано, существуют три уровня ассоциаций, также упомянутых здесь как контексты, которые были идентифицированы в текстовой части (то есть, позиция 305 на фиг.3). Уровнями ассоциации или контекстами являются "Контекст (высший)", "Контекст (3)" и "Контекст (5)". Уровни ассоциации идентифицируются как являющиеся темой действий по сообщению информации, которые обычно являются словами, выражающими действия, и в некоторых вариантах осуществления являются глаголами. Здесь "осудил" является действием по сообщению информации, связанным с первым уровнем 310 ассоциации. Второй уровень 320 ассоциации может рассматриваться как тема действия по сообщению информации, "осудил" идентифицируется на первом уровне 310 ассоциации. Точно также, третий уровень 330 ассоциации может быть темой действия по сообщению информации, "призывы", идентифицированной на втором уровне 320 ассоциации.As shown, there are three levels of associations, also referred to here as contexts that have been identified in the text part (i.e., position 305 in FIG. 3). Association levels or contexts are “Context (higher)”, “Context (3)” and “Context (5)”. Association levels are identified as being the subject of communication activities, which are usually words expressing actions, and in some embodiments are verbs. Here, “condemned” is an information communication activity associated with association first level 310. The second association level 320 may be regarded as the subject of an information communication action, “denounced” is identified at the first association level 310. Similarly, the third association level 330 may be the subject of an information communication action, “calls” identified at the second association level 320.

Уровни ассоциации формируются так, чтобы собрать вместе пакет взаимоотношений, который полностью сохраняется действительным таким же образом. Верхний уровень ассоциации, такой как "Контекст (высший)", может быть уровнем, который поддерживается действительным согласно каждому вопросу предложения. Например, в варианте осуществления, показанном на фиг.3, может быть действительным, что Буш сделал заявление в Вашингтоне, причем не имеет значения, что он осудил. Это заявление, которое было осуждением со стороны Буша, является вложенным контекстом, и вложенный контекст в этом варианте осуществления состоит в выражении "призывы к США уйти из Ирака." Поскольку уход из Ирака не имел места, согласно этому примеру, это заявление расположено во втором уровне ассоциации, который здесь может быть назван гипотетическим контекстом. Используя контекстную структуру или уровни ассоциации, кратко описанные выше, различные семантические взаимоотношения могут быть идентифицированы как остающиеся действительными при различных обстоятельствах или различными путями.The levels of association are formed in such a way as to bring together a package of relationships that is fully preserved valid in the same way. An upper level of association, such as “Context (higher)”, may be a level that is maintained valid according to each question of the sentence. For example, in the embodiment shown in FIG. 3, it may be valid that Bush made a statement in Washington, and it does not matter what he condemned. This statement, which was condemned by Bush, is a nested context, and the nested context in this embodiment is the expression "calls for the US to leave Iraq." Since there was no withdrawal from Iraq, according to this example, this statement is located in the second level of association, which here may be called a hypothetical context. Using the contextual structure or levels of association briefly described above, various semantic relationships can be identified as remaining valid under various circumstances or in different ways.

Действия по сообщению информации могут быть определены, основываясь на ряде факторов, и действие по сообщению информации может быть идентифицировано для каждого уровня ассоциации. Действие по сообщению информации в некоторых случаях является словом, означающим действие, таким, как в варианте осуществления, показанном на фиг.3, "осудил", "призывы", и "уйти". Действия по сообщению информации могут быть, например, глаголами, существительными и т.п. и обычно определяются окружающим текстом или тем, как слово используется в высказывании. Этот тип грамматической информации может быть определен, например, применяя набор правил, которые могут поддерживаться, например, в структуре компонента 255 спецификации грамматики на фиг.2. Применяя набор правил или грамматики, определяются взаимоотношения между словами, которые ведут к идентификации действий по сообщению информации.Information reporting actions can be determined based on a number of factors, and information reporting actions can be identified for each level of association. An information reporting action is in some cases a word meaning an action, such as in the embodiment shown in FIG. 3, “condemned”, “calls”, and “leave”. Actions to communicate information can be, for example, verbs, nouns, etc. and are usually determined by the surrounding text or how the word is used in the utterance. This type of grammar information can be determined, for example, by applying a set of rules that can be supported, for example, in the structure of the grammar specification component 255 in FIG. 2. Using a set of rules or grammar, the relationships between words that lead to the identification of actions to communicate information are determined.

Как показано на фиг.3, действие по сообщению информации связано с элементами, такими как слова или фразы, или может быть связано с различными уровнями ассоциации. Действие по сообщению информации идентифицируется как роли в события, которое в случае данного примера может быть названо событием осуждения. Например, "осудил" идентифицируется как действие по сообщению информации для первого уровня ассоциации 310. Слово "осудил" связывается со словом "Буш" и словом "Вашингтон", причем оба появляются в семантически анализируемой текстовой части. "Осудил" связано с "Бушем", поскольку "Буш" является агентом слова "осудил", так как фактически осуждение делает Буш. Поэтому агент 312 является реляционным элементом, соединяющим эти два слова, формируя, таким образом, семантические взаимоотношения. Аналогично, местоположение 314 является реляционным элементом, соединяющим вместе два слова, а именно, "осудил" и "Вашингтон." Чтобы связать реляционный элемент со словом(ами) в пределах другого уровня контекста, может быть найдена тема, которая связывает эти два слова вместе. Например, может быть определено, какое событие осуждается и это может быть темой действия по сообщению информации "осудил". Здесь призывы к чему-либо могут быть темой 316 "осудил", и более того, вывод США из Ирака может быть идентифицировано как тема 322 "призывы" или события призывов, которое является действием по сообщению информации в пределах второго уровня ассоциации. В пределах третьего уровня ассоциации 330 "США" идентифицируются как агент 332 вывода и "Ирак" является местоположением 334 вывода.As shown in FIG. 3, the action of communicating information is associated with elements, such as words or phrases, or may be associated with various levels of association. The action of reporting information is identified as roles in the event, which in the case of this example may be called a conviction event. For example, “condemned” is identified as the action of reporting information for the first level of association 310. The word “condemned” is associated with the word “Bush” and the word “Washington”, both appearing in the semantically analyzed text part. “Condemned” is associated with “Bush,” because “Bush” is an agent of the word “condemned,” since Bush actually makes the condemnation. Therefore, agent 312 is a relational element connecting these two words, thus forming a semantic relationship. Similarly, location 314 is a relational element connecting two words together, namely, “condemned” and “Washington.” To associate a relational element with the word (s) within a different context level, a topic can be found that links the two words together. For example, it can be determined which event is deprecated and this may be the subject of an action “denounced” by the communication of information. Here, appeals to anything may be “condemned” topic 316, and furthermore, the US withdrawal from Iraq can be identified as topic 322 “appeals” or appeals events, which is the act of communicating information within the second level of association. Within the third level of association 330, “USA” is identified as an output agent 332 and “Iraq” is an output location 334.

Элементы посредством синтаксического анализа извлекаются из необработанного содержимого, и здесь содержатся такие слова, как "осудил", "Буш", "Вашингтон", "призывы", "уйти", "США" и "Ирак". Одно или более этих слов могут иметь схожие значения, которые могут быть представлены в семантическом представлении с помощью логической переменной. Эта логическая переменная может представлять множество синонимов, имеющих значения, схожие с элементом, категориям, в которые вписывается элемент, и может также представлять много значений, которые может иметь элемент. Некоторые элементы проще, чем другие, для определения правильного значения. Значения могут быть определены, в отдельном случае, основываясь на том, как элемент используется внутри контекста текстовой части. Как показано выше, "Буш" идентифицируется как "Джордж Буш", который идентифицируется как человек. "Осудил", действие по сообщению информации, связано как с "критиковать", так и со "сказать", указанные здесь только для примера. Может существовать множество других слов, имеющих значение, схожее с "осудил", и которые также могут быть определены как подлежащие ассоциации с ним. Кроме того, "Вашингтон" ассоциируется с категориями, содержащими город, и с местоположением. "Уход" ассоциируется с "движением" и как "США", так и "Ирак" категоризируются как страна и местоположение.Elements are parsed from raw content and contain words such as “denounced,” “Bush,” “Washington,” “calls,” “leave,” “USA,” and “Iraq.” One or more of these words can have similar meanings, which can be represented in a semantic representation using a logical variable. This boolean variable can represent many synonyms that have values similar to the element, the categories into which the element fits, and can also represent many values that the element can have. Some elements are easier than others to determine the correct value. Values can be determined, in a particular case, based on how the element is used within the context of the text part. As shown above, “Bush” is identified as “George Bush”, which is identified as a person. "Condemned," the action of communicating information, is associated both with "criticizing" and with "saying", indicated here only as an example. There may be many other words that have a meaning similar to "condemned", and which can also be defined as subject to association with it. In addition, Washington is associated with categories containing the city and location. "Nursing" is associated with "movement" and both "USA" and "Iraq" are categorized by both country and location.

Семантические представления, такие как те, которые показаны на фиг.3, позволяют получить более точные и более релевантные результаты поиска, которые должны быть возвращены пользователю после того, как запрос пользователя принят и проанализирован. Например, анализируя текст (например, целевое заявление) "В Вашингтоне Джордж Буш осудил призывы к США уйти из Ирака" и разрабатывая семантические взаимоотношения, как описано выше, этот текст может быть возвращен пользователю после получения запроса на естественном языке, такого как "Что сказал Буш об Ираке", но не "Что сказал Буш о Вашингтоне". Обычный поиск по ключевым словам, при предположении, что он мог бы идентифицировать "осудил" как форму "сказал", должен придать терминам "Вашингтон", "США" и "Ирак" равное выдающееся место в целевом заявлении, приводя к его извлечению посредством запроса ключевого слова, такого как "сказал Буш в Вашингтоне." Более передовая схема индексации, которая связала термин "осудил" с его прямым аргументом "призывы", но которая не пошла дальше, будет не в состоянии обнаружить, что в обвинении шла речь об Ираке. Термин "Вашингтон" исключается из связи с "осудил", кроме как с помощью действия по сообщению информации о местоположении 314, поскольку это не идентифицируется как помещенное внутрь текстовой части, которая анализируется.Semantic representations, such as those shown in FIG. 3, provide more accurate and more relevant search results, which should be returned to the user after the user’s request has been accepted and analyzed. For example, by analyzing a text (such as a targeted statement) “In Washington, George W. Bush condemned calls for the United States to leave Iraq” and by developing a semantic relationship, as described above, this text can be returned to the user after receiving a request in a natural language, such as “What said Bush about Iraq, "but not" What Bush said about Washington. " A regular keyword search, on the assumption that he could identify “condemned” as the “said” form, should give the terms “Washington”, “USA” and “Iraq” an equal prominent place in the target statement, leading to its extraction by request keywords such as "said Bush in Washington." A more advanced indexation scheme that linked the term “condemned” to its direct argument “calls”, but which did not go further, would not be able to detect that the prosecution was talking about Iraq. The term “Washington” is excluded from the connection with “denounced”, except through the action of reporting location information 314, since it is not identified as being placed inside the text part that is being analyzed.

На фиг.4 показана схема 400 семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения. И опять, текстовые части могут содержать косвенную речь и другие сообщения об отношении, которые могут быть идентифицированы множеством слов, найденных в текстовой части, таких как, но, конечно, не ограничиваясь только этим, "осудить", "сказать", "полагать", "желать", "отрицать" и т.д. Хотя вариант осуществления, показанный на фиг.3, обеспечивает семантическое представление как результат анализа семантических взаимоотношений между словами, это представление может быть дополнено информацией о том, какие аргументы к глаголу "осудить" ведут к содержимому осуждения. Дополнительная лексическая информация может быть добавлена, чтобы указать то, о чем осуждение. Ниже приводится семантическое представление того же самого текста, который использовался на фиг.3, который является следующим: "В Вашингтоне Джордж Буш осудил призывы к США уйти из Ирака". Здесь, однако, "приблизительные" взаимоотношения формируются в дополнение к взаимоотношениям, сформированным в варианте осуществления, показанном на фиг.3, чтобы обеспечить еще более релевантные результаты поиска после получения запроса. FIG. 4 shows a diagram 400 of a semantic representation created from a text portion within a document in accordance with an embodiment of the present invention. And again, the textual parts may contain indirect speech and other messages about the relationship, which can be identified by a variety of words found in the textual part, such as, but, of course, not limited to just that, “condemn”, “say”, “believe” , desire, deny, etc. Although the embodiment shown in FIG. 3 provides a semantic representation as a result of the analysis of semantic relationships between words, this representation can be supplemented by information about which arguments to the verb “condemn” lead to the content of the condemnation. Additional lexical information may be added to indicate what the conviction is about. The following is a semantic presentation of the same text that was used in Figure 3, which is as follows: "In Washington, George W. Bush condemned calls for the United States to leave Iraq." Here, however, “approximate” relationships are formed in addition to the relationships formed in the embodiment shown in FIG. 3 to provide even more relevant search results upon receipt of the request.

Контекст (3) (высший): местоположение DNC: WContext (3) (highest): DNC location : W

Контекст (высший): DNC о чем: CLContext (higher): DNC about : CL

Контекст (высший): DNC о чем: WTHDContext (highest): DNC about which : WTHD

Контекст (высший): DNC о чем: UContext (highest): DNC about : U

Контекст (высший): DNC о чем: IContext (highest): DNC about : I

Контекст (5): агент WTHD: UContext (5): WTHD Agent : U

слово: B [Джордж_Буш, человек] Контекст (высший)word: B [George_Bush, man] Context (highest)

слово: DNC [осудить, критиковать, сказать] Контекст (высший)word: DNC [condemn, criticize, say] Context (supreme)

слово: W [Вашингтон_DC, город, местоположение] Контекст (высший)word: W [Washington_DC, city, location] Context (highest)

слово: WTHD [уйти, двигаться] Контекст (5)word: WTHD [leave, move] Context (5)

Есть множество способов, которыми компоновка "близости" может быть вычислена и зарегистрирована. Один из способов состоит в том, чтобы вычислить переходную близость связей контекста и аргумента, начиная с аргумента темы и отмечая любой термин в пределах этой близости, как являющийся близким к сообщению. Этому показывается в приведенном выше семантическом представлении, а также показано на фиг.4.There are many ways in which the proximity arrangement can be computed and recorded. One way is to calculate the transitive proximity of context and argument links, starting with the topic argument and marking any term within that proximity as being close to the message. This is shown in the semantic representation above, and is also shown in FIG. 4.

На фиг.4 показана текстовая часть 405, из которой делается семантическое представление. Как и на фиг.3, на фиг.4 показаны три уровня ассоциации, те, которые являются первым уровнем 410 ассоциации, вторым уровнем 430 ассоциации и третьим уровнем 440 ассоциации.4 shows the text portion 405 from which a semantic representation is made. As in FIG. 3, FIG. 4 shows three association levels, those that are the first association level 410, the second association level 430, and the third association level 440.

"Осудил" является действием по сообщению информации первого уровня 410 ассоциации, "призывы" - действием по сообщению информации второго уровня 430 ассоциации, и "уйти" - действием по сообщению информации третьего уровня 440 ассоциации. Как показано на чертеже, "осудил" теперь имеет больше семантических взаимоотношений, чем это было в варианте осуществления, показанном на фиг.3, поскольку взаимоотношения "о чем" теперь показаны в дополнение к предыдущим взаимоотношениям. Семантические взаимоотношения были определены между "осудил" и каждым из "Буш" с помощью агента 412 реляционного элемента, "Вашингтон" - с помощью местоположения 414 реляционного элемента, и второй уровень 430 ассоциации - с помощью темы 416 реляционного элемента события обвинения. Дополнительно, третий уровень 440 ассоциации является темой 432 призывов, "США" является агентом 442 ухода и "Ирак" является местоположением 444 ухода.“Condemned” is the action of reporting information of the first level 410 of the association, “calls” is the action of reporting information of the second level of 430 association, and “leave” is the action of reporting information of the third level of 440 association. As shown in the drawing, the “condemned” now has more semantic relationships than it was in the embodiment shown in FIG. 3, since the “about” relationships are now shown in addition to the previous relationships. A semantic relationship was defined between “condemned” and each of “Bush” using the relational element agent 412, “Washington” - using the location of the 414 relational element, and the second association level 430 - using the theme 416 of the relational element of the accusation event. Additionally, the third association level 440 is the subject of 432 appeals, “USA” is the care agent 442 and “Iraq” is the care location 444.

В дополнение к этим взаимоотношениям, показаны несколько взаимоотношений "о чем", в том числе, "о чем" 418 связанное с "уйти" на третьем уровне 440 ассоциации, "о чем" 420, связанное с "призывы" на втором уровне 430 ассоциации, "о чем" 422, связанное с "US" на третьем уровне 440 ассоциации, и "о чем" 424, связанное с "Ирак" также на третьем уровне 440 ассоциации. Также, событие осуждения является "о чем" для "уйти", является "о чем" для "призывы", является "о чем" для "США" и является "о чем" для "Ирак". Как показано на чертеже, случай осуждения не является ни "о чем" для "Буш", ни "о чем" для "Вашингтон". Определение этих взаимоотношений "о чем" и избежание взаимоотношений "о чем" с "Буш" и "Вашингтон", например, исключает нерелевантные результаты поиска, возвращаемые пользователю.In addition to these relationships, several “about what” relationships are shown, including “about” 418 related to “leave” at the third level 440 associations, “about” 420, related to “calls” at the second level 430 associations "about" 422, associated with "US" at the third level of the association 440, and "about" 424, associated with "Iraq" also at the third level of the 440 association. Also, the conviction event is “about” for “leave,” is “about” for “calls,” is “about” for “USA,” and is “about” for “Iraq.” As shown in the drawing, the case of conviction is neither “about” for “Bush” nor “about” for “Washington”. Defining this “what” relationship and avoiding the “what” relationship with Bush and Washington, for example, excludes irrelevant search results returned to the user.

На фиг.5 показана схема 500 семантического представления, созданная из текстовой части, взятой в пределах документа в соответствии с вариантом осуществления настоящего изобретения. Семантическое представление этого варианта осуществления показано ниже для следующей текстовой части 505: "В Вашингтоне Джордж Буш осудил призывы к США уйти из Ирака".5 is a semantic representation diagram 500 created from a text portion taken within a document in accordance with an embodiment of the present invention. The semantic presentation of this embodiment is shown below for the following text portion 505: "In Washington, George W. Bush condemned calls for the United States to leave Iraq."

Контекст (высший): DNC агент: BContext (highest): DNC agent : B

Контекст (высший): DNC тема: Контекст (3)Context (supreme): DNC topic : Context (3)

Контекст (высший): DNC местоположение: WContext (highest): DNC location : W

Контекст (3): CL тема: Контекст(5)Context (3): CL theme : Context (5)

Контекст (3): CL сказано: DNCContext (3): CL said : DNC

Контекст (5): WTHD агент: UContext (5): WTHD Agent : U

Context (5): WTHD location: IContext (5): WTHD location : I

Контекст (5): WTHD сказано: DNCContext (5): WTHD says : DNC

слово: WTHD [уйти, движение] Контекст (5)word: WTHD [leave, traffic] Context (5)

Как показано выше, вместо того, чтобы отмечать каждый элемент, что сообщение - "о чем", как было в случае на фиг.4, индекс отмечает только заголовок каждого сообщаемого факта. Например, на фиг.5 показано, что "осудил" было идентифицировано как действие по сообщению информации первого уровня 510 ассоциации и связывается с различными элементами, такими как "Буш", с помощью агента 512 реляционного элемента и "Вашингтон" с помощью местоположения 514 реляционного элемента. Дополнительно, тема 516 для "осудил" была идентифицирована как выражение "призывы к США уйти из Ирака", которое частично реализуется в пределах второго уровня 530 ассоциации и частично - в пределах третьего уровня 540 ассоциации. "Призывы" связывается с третьим уровнем 540 ассоциации с помощью темы 532 реляционного элемента 532. В пределах третьего уровня 540 ассоциации, "уйти" связывается как с "США", так и с "Ирак" с помощью агента 542 и местоположения 544 реляционных элементов, соответственно.As shown above, instead of marking each element that the message is “about”, as was the case in FIG. 4, the index only marks the header of each reported fact. For example, FIG. 5 shows that the “condemned” was identified as an action by reporting information of the first association level 510 and associated with various elements, such as “Bush”, using the relational element agent 512 and “Washington” using the relational location 514 item. Additionally, topic 516 for “denounced” was identified as the expression “calls for the United States to leave Iraq”, which is partially implemented within the second association level 530 and partially within the third association level 540. “Calls” are associated with the third association level 540 using the topic 532 of the relational element 532. Within the third association level 540, “leave” is associated with both “USA” and “Iraq” using the agent 542 and the location of the 544 relational elements, respectively.

В дополнение к взаимоотношениям, определенным выше, и вместо взаимоотношений "о чем", существуют два реляционных элемента, названных "сказано" и показанных как "сказано" 518, связанные с "уйти" и "сказано" 520, связанные с "призывы". Эта структура все еще позволяет соединение между "осудил" и "уйти", "США" и даже "Ирак." Различие состоит в том, что эти взаимоотношения в варианте осуществления, показанном на фиг.5, являются косвенными взаимоотношениями, а не прямыми взаимоотношениями. Как описано выше, компромисс при использовании этого варианта осуществления заключается в пониженном использовании запоминающего устройства в пределах индекса, но повышенном времени, требующемся для вычисления после получения запроса.In addition to the relationships defined above, and instead of the “what” relationship, there are two relational elements called “said” and shown as “said” 518, associated with “leave” and “said” 520, associated with “calls”. This structure still allows the connection between “condemned” and “leave,” “USA,” and even “Iraq.” The difference is that these relationships in the embodiment shown in FIG. 5 are indirect relationships, not direct relationships. As described above, the trade-off when using this embodiment is the reduced use of the storage device within the index, but the increased time required to calculate after receiving the request.

Продолжая ссылаться на фиг.5, показан альтернативный вариант осуществления относительно варианта осуществления, показанного, например, на фиг.4, который демонстрирует концепцию компромисса между пространством и временем. Как можно заметить, сравнивая схему на фиг.4 и схему на фиг.5, схема на фиг.5, как кажется, более проста, поскольку она явно не содержит никаких взаимоотношений "о чем", используя реляционные элементы "о чем". Поскольку фиг.5 содержит меньше идентифицированных взаимоотношений, они занимают меньшее пространство в пределах индекса и поэтому меньшее пространство хранилища данных, в котором хранится индекс. Хотя меньшее запоминающее устройство и пространство хранения могут использоваться для варианта осуществления, показанного на фиг.5, может потребоваться больше времени, чтобы определить совпадение высказывания запроса с семантическими представлениями в пределах индекса, поскольку взаимоотношения "о чем" не были уже идентифицированы. Другими словами, взаимоотношения "о чем" не были явно закодированы в пределах индекса, чтобы позволить быстрое сравнение. Это требует намного большего объема вычислений на вычислительной машине базы данных, который может привести к увеличенным временам ожидания для пользователей. Альтернативно, вариант осуществления, показанный на фиг.4, явно вычисляет взаимоотношения "о чем" заранее и сохраняет эти взаимоотношения в индексе, который позволяет быстрое сравнение высказываний запроса с семантическими представлениями, приводя в результате к меньшему времени, требующемуся для вычислений после того, как пользователь ввел запрос.Continuing to refer to FIG. 5, an alternative embodiment is shown with respect to the embodiment shown, for example, in FIG. 4, which shows the concept of a compromise between space and time. As you can see, comparing the diagram in Fig. 4 and the diagram in Fig. 5, the diagram in Fig. 5 seems to be simpler, since it obviously does not contain any "what" relationships using the "what" relational elements. Since FIG. 5 contains less identified relationships, they take up less space within the index and therefore less data storage space in which the index is stored. Although a smaller storage device and storage space may be used for the embodiment shown in FIG. 5, it may take longer to determine if the query statement matches the semantic representations within the index, since the “about” relationship has not already been identified. In other words, the “about” relationship was not explicitly encoded within the index to allow quick comparisons. This requires a lot more computation on a database computer, which can lead to increased latency for users. Alternatively, the embodiment shown in FIG. 4 explicitly calculates the “about what” relationships in advance and stores these relationships in an index that allows quick comparison of query statements with semantic representations, resulting in less time required for calculations after The user entered a request.

На фиг.6 показана схема 600 семантического представления, созданного из текстовой части, взятой в пределах документа, в соответствии с вариантом осуществления настоящего изобретения. Вариант осуществления, показанный на фиг.6, приводит подобный, все же более простой пример, чем вариант осуществления, показанный на фиг.3 и 4. Текстовая часть 605 заявляет следующее: "Джон полагает, что Мэри поехала в Вашингтон". Ниже приводится семантическое представление текстовой части 605.FIG. 6 shows a diagram 600 of a semantic representation created from a text portion taken within a document in accordance with an embodiment of the present invention. The embodiment shown in FIG. 6 provides a similar, yet simpler example than the embodiment shown in FIGS. 3 and 4. Text part 605 states: “John believes Mary went to Washington.” The following is a semantic representation of text part 605.

Контекст (высший): BEL агент: JContext (highest): BEL agent : J

Контекст (высший): BEL тема: Контекст (2)Context (highest): BEL topic : Context (2)

Контекст (высший): BEL о чем: GContext (highest): BEL about which : G

Контекст (высший): BEL о чем: M Context (highest): BEL about : M

Контекст (высший): BEL о чем: WContext (highest): BEL about which : W

Контекст (2): G агент: MContext (2): G agent : M

Контекст (2): G местоположение: WContext (2): G location : W

слово: J [Джон, человек] Контекст (высший)word: J [John, man] Context (supreme)

слово: BEL [полагает] Контекст (высший)word: Bel [supposes] Context (supreme)

слово: W [Вашингтон_DC, город, местоположение] Контекст (2)word: W [Washington_DC, city, location] Context (2)

слово: G [отправилась, движение] Контекст (2)word: G [set off, movement] Context (2)

слово: M [Мэри, человек] Контекст (2)word: M [Mary, man] Context (2)

Анализируемые элементы, взятые из необработанного содержимого, включают "Джон", "полагать", "отправиться", "Мэри" и "Вашингтон." "Полагает" идентифицируется как действие по сообщению информации в пределах первого уровня 610 ассоциации, а "отправилась" является действием по сообщению информации в пределах второго уровня 630 ассоциации. Реляционные элементы, такие, как те, которые определены выше, соединяют элементы и описывают тип ассоциации, содержат "агент" 612, "тема" 614, "о чем" 616, "о чем" 618, "о чем" 620, "агент" 632 и "местоположение" 634. Второй уровень 630 ассоциации является темой "полагает", тогда как три слова, которые являются "о чем" для действия по сообщению информации для "полагает". "Полагает" является "о чем" для "Мэри", где "Мэри" "отправилась" (например, идти) и куда Мэри пошла (например, "Вашингтон"). Опять же, в некоторых вариантах осуществления логическая переменная может быть заменена элементом и логическая переменная может быть связана с множеством синонимов, различными значениями этого элемента или слова или тому подобным.Analyzed elements taken from raw content include John, Believe, Set Off, Mary, and Washington. “Believes” is identified as an action for reporting information within the first association level 610, and “set off” is an action for reporting information within the second association level 630. Relational elements, such as those defined above, connect the elements and describe the type of association, contain "agent" 612, "topic" 614, "about" 616, "about" 618, "about" 620, "agent “632 and“ location ”634. The second association level 630 is the subject of“ believes ”, while the three words that are“ what ”are for the action to report information for“ believes ”. “Believes” is “what” for “Mary,” where “Mary” went “(like going) and where Mary went (like“ Washington ”). Again, in some embodiments, the logical variable may be replaced by an element and the logical variable may be associated with a variety of synonyms, different meanings of that element or word, or the like.

Обращаясь теперь к фиг.7, на фиг.7 показана схема 700 высказывания, создаваемая из запроса поиска, в соответствии с вариантом осуществления настоящего изобретения. Высказывание создается способом, подобным семантическому представлению (например, представление содержимого, полученного из Web-документа). Здесь запрос 705 является следующим: "Кто сказал что-либо об Ираке?". Высказывание показано ниже.Turning now to FIG. 7, FIG. 7 shows a sentence diagram 700 generated from a search query in accordance with an embodiment of the present invention. A statement is created in a manner similar to semantic representation (for example, a representation of content obtained from a Web document). Here, the 705 request is: "Who said anything about Iraq?" The statement is shown below.

Контекст(высший): SY-2 агент: P-2Context (highest): SY-2 Agent : P-2

Контекст(высший): SY-2 тема: E-2Context (Supreme): SY-2 Topic : E-2

Контекст(высший): SY-2 о чем: I-2 Context (higher): SY-2 about which : I-2

слово: P-2 [человек]Контекст(высший)word: P-2 [person] Context (highest)

слово: SY-2 [сказать]Контекст(высший)word: SY-2 [say] Context (highest)

слово: E-2 [*] Контекст(высший)word: E-2 [*] Context (highest)

слово: I-2 [Ирак, страна, местоположение]Контекст(высший)word: I-2 [Iraq, country, location] Context (highest)

Синтаксический анализ и выполнение семантического анализа для запросов обычно намного проще, чем выполнение того же самого анализа для содержимого документов, поскольку запросы обычно короче по длине и могут содержать только один уровень ассоциации, как показано на фиг.7. Уровень 710 ассоциации содержит несколько элементов, которые были анализированы или идентифицированы, в том числе, "человек", "сказать" и "Ирак". Существует дополнительный элемент, но он подобен универсальному символу, поскольку это может быть много разных вещей, а не только одно слово. Этот дополнительный элемент представляет слово "что-либо" из запроса. В одном варианте осуществления элементы, такие как "что-либо", которые могут в чем-либо совпадать, могут быть извлечены из запроса при анализе запроса, так чтобы не накладывать ограничение, когда для высказывания определяется совпадение с семантическим представлением.Parsing and performing semantic analysis for queries is usually much simpler than doing the same analysis for document contents, because queries are usually shorter in length and can contain only one level of association, as shown in FIG. 7. Association level 710 contains several elements that have been analyzed or identified, including “person,” “say,” and “Iraq.” There is an additional element, but it is similar to a universal symbol, because it can be many different things, and not just one word. This optional element represents the word “anything” from the query. In one embodiment, elements, such as “something” that may coincide in something, can be extracted from the query when analyzing the query, so as not to impose a restriction when a statement matches a semantic representation.

Высказывание, показанное на фиг.7, также содержит действие по сообщению информации, "сказать", в дополнение к нескольким реляционным элементам. Агент 712 связывает "человек" с "сказать". "О чем" 714 связывает "сказать" с "Ирак" и тема 716 связывает "сказать" с универсальным элементом, который, как упомянуто выше, может быть чем угодно. Как показано на чертеже, в высказывании слово "кто" заменяется на "человек".The utterance shown in FIG. 7 also contains the action of reporting “say” in addition to several relational elements. Agent 712 associates the "person" with "say." "What" 714 associates "say" with "Iraq" and topic 716 associates "say" with a universal element, which, as mentioned above, can be anything. As shown in the drawing, in the statement the word "who" is replaced by "person".

Семантическое представление, созданное из содержимого документа (например, Web-документа), такого как те, которые показаны выше со ссылкой на фиг.3 и 4, и высказывание, созданное из запроса, такое, как то, которое показано выше со ссылкой на фиг.6, могут быть проверены на совпадение или связано, чтобы определить наиболее релевантные результаты поиска из принятого запроса. Например, показанное ниже семантическое представление демонстрирует совпадение семантического представления и высказывания. Совпадения показываются рядом друг с другом.A semantic representation created from the contents of a document (for example, a Web document), such as those shown above with reference to FIGS. 3 and 4, and a sentence created from a query, such as that shown above with reference to FIG. .6 can be checked for match or linked to determine the most relevant search results from the received query. For example, the semantic representation shown below demonstrates the coincidence of semantic representation and utterance. Matches are shown next to each other.

Контекст (высший): DNC агент: BContext (highest): DNC agent : B Контекст (высший): SY-2 агент P-2Context (Supreme): SY-2 Agent P-2 Контекст (высший): DNC тема: Контекст (3)Context (supreme): DNC topic : Context (3) Контекст (высший): SY-2 тема: E-2Context (Supreme): SY-2 Topic : E-2 Контекст (высший): DNC местоположение: W
Контекст (высший): DNC о чем: CL
Контекст (высший): DNC о чем: WTHD
Контекст (высший): DNC о чем: UContext (highest): DNC location : W
Context (higher): DNC about : CL
Context (highest): DNC about which : WTHD
Context (highest): DNC about : U Контекст (top): DNC о чем: IContext (top): DNC about : I Контекст (top): SY-2 о чем 1-2Context (top): SY-2 about 1-2 Контекст (3): CL тема: Контекст (5)
Контекст (5): WTHD агент: U К
Контекст (5): WTHD местоположение: IContext (3): CL theme : Context (5)
Context (5): WTHD Agent : U K
Context (5): WTHD location : I слово: B [Джордж_Буш, человек] Контекст (высший)word: B [George_Bush, man] Context (highest) слово: P-2[человек]Контекст (высший)word: P-2 [person] Context (highest) слово: DNC [осудить, критиковать, сказать] Контекст (высший) слово:word: DNC [condemn, criticize, say] Context (highest) word: SY-2 [сказать] Контекст (высший)SY-2 [say] Context (supreme) слово: W [Вашингтон_DC, город, местоположение] Контекст (высший)word: W [Washington_DC, city, location] Context (highest) слово: CL [призыв, сказать]Контекст (3)word: CL [call, say] Context (3) слово: E-2 [*] Контекст (высший)word: E-2 [*] Context (highest) слово: WTHD [уйти, движение]Контекст (5)word: WTHD [leave, traffic] Context (5) слово: U [Соединенные_Штаты_Америки, страна, местоположение] Контекст (5)word: U [United States of America, country, location] Context (5) слово: I [Ирак, страна, местоположение]Контекст (5)word: I [Iraq, country, location] Context (5) слово:I-2[Ирак,страна, местоположение] Контекст (высший)word: I-2 [Iraq, country, location] Context (highest)

Если существует совпадение реляционных элементов, такое как совпадение агента с агентом, то элементы, ассоциированные с реляционными элементами, затем проверяются, чтобы определить, являются ли слова одними и теми же или даже схожими. Выше упоминалось, что "осудить" ассоциировалось с "сказать", чтобы расширить поиск, и "Буш" ассоциировалось с "человек" по той же самой причине. Поэтому, совпадение обнаружено между Контекст(высший): DNC агент: B и Контекст(высший): SY-2 агент: P-2.If there is a match between relational elements, such as a match between an agent and an agent, then the elements associated with the relational elements are then checked to determine if the words are the same or even similar. It was mentioned above that “condemn” was associated with “say” in order to expand the search, and “Bush” was associated with “man” for the same reason. Therefore, a match was found between Context (highest): DNC agent: B and Context (highest): SY-2 agent: P-2.

На фиг.8 показана схема 800 семантического представления, созданная из текстовой части в пределах документа, текстовая часть, содержащая два предложения, в соответствии с вариантом осуществления настоящего изобретения. Вариант осуществления на фиг.8 показывает, что в одном семантическом представлении может быть представлено больше одного предложения, особенно, если предложения связаны. Здесь, оба предложения созданы одним и тем же человеком, Бушем. Поэтому имеет смысл и уместно поместить оба предложения в единое представление. Следует отметить, что для создания семантического представления может быть сгруппировано любое количество предложений или даже фраз. Процесс синтаксического анализа содержимого, извлеченного из документа (например, Web-документа), может быть выполнен, например, применяя ряд правил для проверки строки символов на конкретные свойства, такие как используемая пунктуация и преобразование букв в прописные. Этот набор правил, подразумевая эти свойства, может быть в состоянии определить различные предложения или фразы, которые связаны вместе, такие как те, которые показаны на фиг.8 как текстовые части 805 и 810. Этот процесс может быть выполнен в соответствии с компонентом анализа документов, такого как компонент 240 на фиг.2.FIG. 8 shows a semantic representation diagram 800 created from a text part within a document, a text part containing two sentences, in accordance with an embodiment of the present invention. The embodiment of FIG. 8 shows that more than one sentence may be presented in one semantic representation, especially if the sentences are related. Here, both sentences are created by the same person, Bush. Therefore, it makes sense and appropriate to place both sentences in a single presentation. It should be noted that to create a semantic representation, any number of sentences or even phrases can be grouped. The process of parsing content extracted from a document (for example, a Web document) can be performed, for example, by applying a number of rules to check a character string for specific properties, such as punctuation and capitalization. This set of rules, implying these properties, may be able to define various sentences or phrases that are linked together, such as those shown in FIG. 8 as text parts 805 and 810. This process can be performed in accordance with the document analysis component such as component 240 in FIG. 2.

Для первой текстовой части 805 существуют два показанных уровня ассоциации. Первый уровень 820 ассоциации (например, высший контекст (t) и второй уровень 840 ассоциации (например, Контекст (ctx-7)) непосредственно связаны действием по сообщению информации "сказать", расположенным в пределах первого уровня 820 ассоциации. "Сказать" и второй уровень 840 ассоциации связаны реляционным элементом 824 темы, так что высказывание "призывы уйти - это плохие призывы " является темой того, что сказал Буш. Множество взаимоотношений "о чем" также сформировано и, как упомянуто выше, учитывает более высокую точность результатов поиска. В пределах первого уровня 820 ассоциации, "сказать" связано с "Буш" через реляционный элемент 822 агента, поскольку Буш является человеком или агентом, который произнес или сказал эти слова. Дополнительно, реляционные элементы "о чем" 826, 828 и 830 осуществляют связь от "сказать" к "уйти", "призывы" и "плохие", соответственно. Эти взаимоотношения или ассоциации "о чем" позволяют осуществить действенную и эффективную проверку совпадения этих взаимоотношений с подобными взаимоотношениями, найденными в высказываниях запроса. Дополнительно, в пределах второго уровня ассоциации 840, действие по сообщению информации "призывы" непосредственно связано с "уход" реляционными элементами темы 842 и с "плохой" - модификатором 844 реляционных элементов.For the first text portion 805, there are two association levels shown. The first association level 820 (for example, the highest context (t) and the second association level 840 (for example, Context (ctx-7)) are directly related to the “say” information message located within the first association level 820. “Say” and the second association level 840 is linked by a relational topic element 824, so saying “calls to leave is bad calls” is the theme of what Bush said. A lot of “what” relationships are also formed and, as mentioned above, take into account the higher accuracy of the search results. before ah first association level 820, “say” is associated with “Bush” through the agent relational element 822, because Bush is the person or agent who said or said these words. Additionally, the “about” relational elements 826, 828 and 830 communicate from “say” to “leave,” “appeals” and “bad,” respectively. These relationships or associations “about what” allow you to effectively and efficiently verify that these relationships match with similar relationships found in the query statements. Additionally, within the second level of association 840, the action of communicating “appeals” information is directly related to “leaving” the relational elements of topic 842 and to the “bad” modifier 844 of relational elements.

Следует отметить, что существует много способов, которыми можно было бы работать в соответствии со схемой, связанной с первой текстовой частью 805. Например, чтобы дойти до "уйти", один путь состоит в том, чтобы пойти от "сказать" напрямую к "уйти", используя взаимоотношения "о чем" (например, реляционный элемент "о чем" 826). Другой путь косвенно достигает "уйти", сначала используя реляционный элемент "о чем" 828, чтобы достигнуть "призывы", и затем связываясь с "уйти" с помощью реляционного элемента темы 842, поскольку "уйти" является темой "призывы". Дополнительно, используя реляционный элемент темы 824, может быть достигнут второй уровень 840 ассоциации, на котором "уйти" находится внутри этого второго уровня 840 ассоциации.It should be noted that there are many ways that one could work in accordance with the pattern associated with the first text part of 805. For example, to get to "leave", one way is to go from "say" directly to "leave "using the relationship" about what "(for example, the relational element" about what "826). Another way is indirectly reaching “leave”, first using the relational element “about” about 828 to achieve “appeals”, and then linking to “leave” using the relational element of topic 842, since “leaving” is the topic of “appeals”. Additionally, using the relational theme element 824, a second association level 840 may be reached at which to “leave” is within this second association level 840.

Если посмотреть на вторую текстовую часть 810 отдельно от первой, то действие по сообщению информации "остаться" идентифицируется для этой текстовой части. Текстовая часть является довольно простой и короткой и поэтому идентифицируется только один уровень 850 ассоциации (например, Контекст (ctx-12)). "Остаться" ассоциируется или связывается с "США" с помощью агента 858 реляционного элемента, и "Ирак" - с помощью местоположения 862 реляционного элемента 862. Кроме того, внутри текстовой части 810 найден термин "должен". В лингвистических целях "должен" может выражать взаимоотношение модальности, которое является выражением, широко ассоциированным с понятиями вероятности и необходимости. Также, модальность (например, "должен") используется как реляционный элемент 860 в этом варианте осуществления и ассоциируется с "остаться". Две текстовых части 805 и 810 могут теперь быть переплетены, чтобы определить взаимоотношения "о чем" между первой текстовой частью 805 и второй текстовой частью 810. На фиг.8 показано, что взаимоотношения "о чем" сформированы между "сказать" и "США", "остаться" и "Ирак" через реляционные элементы "о чем" 852, "о чем" 854 и "о чем" 856, соответственно.If you look at the second text part 810 separately from the first, then the action to report the information "stay" is identified for this text part. The text part is quite simple and short and therefore only one association level 850 is identified (e.g. Context (ctx-12)). “Remain” is associated or associated with “USA” with the relational element agent 858, and “Iraq” with the location 862 of the relational element 862. In addition, the term “must” is found within the text portion 810. For linguistic purposes, “must” can express the relationship of modality, which is an expression widely associated with the concepts of probability and necessity. Also, a modality (eg, “must”) is used as the relational element 860 in this embodiment and is associated with “stay”. The two text parts 805 and 810 can now be intertwined to define a “what” relationship between the first text part 805 and the second text part 810. FIG. 8 shows that a “what” relationship is formed between “say” and “USA” , "stay" and "Iraq" through the relational elements "about" what "852," about "what" 854 and "about what" 856, respectively.

Теперь обратимся к фиг.9, где показана блок-схема 900 последовательности выполнения операций способа построения семантических взаимоотношений между элементами, извлеченными из содержимого документа, чтобы создать семантическое представление содержимого в соответствии с вариантом осуществления настоящего изобретения. Первоначально, текстовая часть идентифицируется на этапе 910, который позволяет индексировать и хранить в семантическом индексе 260, показанном, например, на фиг.2, идентифицированную текстовую часть. Текстовые части могут быть получены из содержимого одного или более документов, таких как Web-страницы, которые могут храниться в хранилище данных, таком как хранилище 220 данных на фиг.2. Когда из документа извлечено содержимое, формат содержимого может быть исходным онлайновым форматом, который требует преобразования. В одном варианте осуществления содержимое преобразуется из исходного онлайнового формата в формат языка разметки гипертекста (HTML), чтобы создать текстовую часть. Содержимое может быть извлечено в форме одного или более предложений или фраз, таблицы, шаблона или множества данных. Текстовые части могут содержать косвенную речь и другие сообщения об отношении, которые могут идентифицироваться множеством слов, найденных в текстовой части, таких как, но, конечно, не ограничиваясь только ими, "осудить", "сказать", "полагать", "желать", "отрицать" и т.д. Эти слова идентифицируются в отчетах об отношении, потому что они описывают отношение человека к определенной теме. Косвенная речь может принимать форму прямых цитирований от человека или может быть речью, о которой сообщает другое лицо.Turning now to FIG. 9, a flowchart 900 is shown of a method for constructing semantic relationships between elements extracted from document content to create a semantic representation of content in accordance with an embodiment of the present invention. Initially, the text part is identified in step 910, which allows indexing and storage in the semantic index 260, shown, for example, in FIG. 2, of the identified text part. Text parts can be obtained from the contents of one or more documents, such as Web pages, that can be stored in a data store, such as data store 220 in FIG. When content is extracted from a document, the content format may be the original online format that requires conversion. In one embodiment, the content is converted from an online source format to a hypertext markup language (HTML) format to create a text portion. Content may be retrieved in the form of one or more sentences or phrases, tables, templates or data sets. Textual parts can contain indirect speech and other messages about the relationship, which can be identified by a variety of words found in the textual part, such as, but, of course, not limited to “condemn”, “say”, “believe”, “desire” , "deny", etc. These words are identified in relationship reports because they describe a person’s relationship to a particular topic. Indirect speech can take the form of direct quotations from a person or it can be a speech that is reported by another person.

В одном варианте осуществления текстовая часть может быть проанализирована, чтобы идентифицировать один или более элементов, которые должны быть семантически представлены для дальнейшей индексации. Синтаксический анализ может также содержать текстовое извлечение и распознавание объекта, при котором объект распознается посредством поиска заданного списка слов, хранящихся, например, в хранилище данных 220. Эта процедура помогает в том, что она распознает слова, которые могут быть именем человека или названием вещи. На этапе 920 определяется семантическая информация для каждого из идентифицированных элементов. Семантическая информация может содержать одно или более значений и/или грамматических функций идентифицированных в них элементов. В одном варианте осуществления синонимы или гипонимы могут также быть определены и введены как семантическая информация. Дополнительно, в некоторых вариантах осуществления у одного или более слов могут быть схожие значения и эти слова и значения могут быть представлены в семантическом представлении логической переменной путем замены определенного элемента логической переменной. Эта логическая переменная может представлять множество синонимов, имеющих значения, схожие с элементом, категориям которого элемент соответствует, и может также представлять множество значений, которые может иметь элемент, который позволяет расширенный, но более точный поиск. Логические переменные могут храниться в хранилище данных.In one embodiment, the text portion may be analyzed to identify one or more elements that must be semantically presented for further indexing. Parsing can also include text extraction and object recognition, in which the object is recognized by searching for a given list of words stored, for example, in data warehouse 220. This procedure helps in recognizing words that can be a person’s name or the name of a thing. At step 920, semantic information is determined for each of the identified elements. Semantic information may contain one or more meanings and / or grammatical functions of the elements identified in them. In one embodiment, synonyms or hyponyms can also be defined and entered as semantic information. Additionally, in some embodiments, one or more words may have similar meanings and these words and meanings can be represented in the semantic representation of a logical variable by replacing a specific element of the logical variable. This boolean variable can represent many synonyms that have values similar to the element whose categories the element matches, and can also represent many values that the element can allow for an advanced but more accurate search. Logical variables can be stored in the data warehouse.

На этапе 930, по меньшей мере, один из идентифицированных элементов идентифицируется как действие по сообщению информации, которая соответствует речевому сообщению или сообщению об отношении. Этап 940 указывает, что идентифицированные элементы ассоциируются друг с другом, чтобы сформировать семантические взаимоотношения, и сформированные ассоциации основываются на семантической информации, определенной выше на этапе 920. В одном варианте осуществления могут быть определены один или более уровней ассоциации или контексты и каждый уровень ассоциации может содержать один или больше идентифицированных элементов. Элементы в пределах различных уровней ассоциации могут ассоциироваться друг с другом и могут быть ассоциированы посредством действия по сообщению информации. Действие по сообщению информации может быть выражено, например, глаголами, существительными или тому подобным образом и обычно определяется окружающим текстом или тем, как слово используется в предложении. Этот тип грамматической информации может быть определен, например, применяя набор правил, которые могут поддерживаться в структуре компонента 255 спецификации грамматики на фиг.2, например. Только для примера, предположим, что в текстовой части говорится: "В Вашингтоне Буш осудил призывы к США уйти из Ирака". Здесь могут быть идентифицированы три уровня ассоциации, причем каждый содержит действие по сообщению информации. Действия по сообщению информации для трех соответствующих уровней ассоциации могут быть идентифицированы как "осудил", "призывы" и "уйти".At step 930, at least one of the identified elements is identified as the action of communicating information that corresponds to a voice message or a relationship message. Step 940 indicates that the identified elements are associated with each other to form a semantic relationship, and the generated associations are based on the semantic information determined above at step 920. In one embodiment, one or more association levels or contexts can be defined and each association level can contain one or more identified elements. Elements within different levels of association may be associated with each other and may be associated through an action of communicating information. The action of communicating information can be expressed, for example, by verbs, nouns, or the like, and is usually determined by the surrounding text or how the word is used in the sentence. This type of grammar information can be determined, for example, by applying a set of rules that can be supported in the structure of the grammar specification component 255 of FIG. 2, for example. Just as an example, suppose the text says: "In Washington, Bush condemned calls for the United States to leave Iraq." Three levels of association can be identified here, each containing an action for communicating information. Reporting actions for the three respective levels of association can be identified as “denounced,” “appeals,” and “quit.”

В дополнение к уровням ассоциации (например, контексты) и действиям по сообщению информации, могут быть также определены реляционные элементы, которые описывают взаимоотношения между действием по сообщению информации и элементом или уровнем ассоциации. Например, продолжая ссылаться на приведенный выше пример, "Буш" может быть ассоциировано или связано с "осудил" посредством агента реляционного элемента, поскольку Буш является агентом, делающим осуждение. Реляционные элементы могут принимать различные формы взаимоотношений, но могут быть словами, такими как, в частности, агент, местоположение, тема или "о чем", взаимоотношения "о чем" указывают, на какое действие по сообщению информации делается ссылка или о чем идет речь. На этапе 950 создается семантическое представление, которое содержит ассоциации идентифицированных элементов, описанных выше. Семантическое представление может затем быть сохранено в индексе, таком как семантический индекс 260 на фиг.2.In addition to association levels (eg, contexts) and communication actions, relational elements can also be defined that describe the relationship between the communication action and the association element or level. For example, continuing to refer to the above example, “Bush” may be associated with or associated with “condemned” through a relational element agent, because Bush is a condemning agent. Relational elements can take various forms of relationships, but can be words, such as, in particular, an agent, location, topic or “what”, “what” relationships indicate what action the link is made to or what the speech is about . At block 950, a semantic representation is created that contains associations of the identified elements described above. The semantic representation may then be stored in an index, such as the semantic index 260 in FIG. 2.

На фиг.10 показана блок-схема 1000 последовательности выполнения операций способа создания, в ответ на получение запроса, ассоциаций между различными терминами, извлеченными из запроса, чтобы создать суждение, причем суждение, используемое для опроса информации, хранящейся в индексе, чтобы обеспечить релевантные результаты поиска в соответствии с вариантом осуществления настоящего изобретения. Суждение является логическим представлением концептуального значения запроса, который используется для опроса семантических взаимоотношений, содержащихся в пределах семантических представлений содержимого из документов. Процесс создания суждения из запроса очень похож на процесс, описанный здесь для создания семантического представления содержимого документа. Первоначально, запрос принимается как ввод от пользователя и в одном варианте осуществления принятый запрос анализируется для определения одного или более поисковых терминов в пределах запроса. Поисковые термины подобны элементам, идентифицированным в текстовой части.FIG. 10 shows a flowchart 1000 of a method for creating, in response to a request, associations between various terms extracted from a request to create a judgment, the judgment being used to query information stored in the index to provide relevant results search in accordance with an embodiment of the present invention. A judgment is a logical representation of the conceptual meaning of a query, which is used to query the semantic relationships contained within the semantic representations of content from documents. The process of creating a judgment from a query is very similar to the process described here to create a semantic representation of the contents of a document. Initially, the request is received as input from the user, and in one embodiment, the received request is analyzed to determine one or more search terms within the request. Search terms are similar to elements identified in the text part.

На этапе 1010 определяется семантическая информация для каждого одного или более поисковых терминов и эта семантическая информация может содержать в них одно или более значений и/или грамматических функций поисковых терминов. В дополнение к определению семантической информации, может быть идентифицирована логическая переменная, которая может быть ассоциирована или может даже заменить один или больше терминов для поиска. Логическая переменная может быть числом, буквой или последовательностью или комбинацией того и другого и может представлять множество слов, имеющих подобные значения, в поисковых терминах. Это позволяет получение расширенного, еще более релевантного ответа по результатам поиска пользователем. Первое действие по сообщению информации идентифицируется в пределах запроса на этапе 1020. Действие по сообщению информации может быть глаголом, существительным или любой другой частью речи и может содержать действие, такое как "говорить", "призывать", "осуждать", "полагать" и т.д. В одном варианте осуществления может быть идентифицировано больше одного действия по сообщению информации в пределах запроса, такого как второе действие по сообщению информации.At 1010, semantic information is determined for each one or more search terms, and this semantic information may contain one or more values and / or grammatical functions of the search terms. In addition to defining semantic information, a logical variable can be identified that can be associated or even replace one or more search terms. A logical variable may be a number, a letter, or a sequence or a combination of the two, and may represent many words having similar meanings in search terms. This allows you to get an extended, even more relevant answer to the search results by the user. The first communication action is identified within the request at block 1020. The communication action may be a verb, noun, or any other part of speech and may include an action such as “speak,” “invoke,” “condemn,” “believe” and etc. In one embodiment, more than one information reporting action within a request may be identified, such as a second information reporting action.

Семантические взаимоотношения показаны на этапе 1030 и могут определяться между каждым действием по сообщению информации и другим термином для поиска, чтобы создать ассоциацию между словами. Семантические взаимоотношения могут основываться на определенной семантической информации, как описано выше. Ассоциации связываются реляционными элементами, которые описывают ассоциацию, такую как, в частности, агент, местоположение, тема или "о чем". Другие реляционные элементы, конечно, также подразумеваются присутствующими в объеме настоящего изобретения. На этапе 1040 создается суждение, содержащее сформированные ассоциации между каждым действием по сообщению информации и одним или более терминами для поиска, анализированными из запроса. Когда суждение создано, суждение (например, ассоциации внутри суждения) может быть сравнено или проверено на совпадение с одним или более семантическими представлениями, хранящимися в семантическом индексе 260, чтобы, например, определить наиболее релевантные совпадения для суждения. В одном варианте осуществления запрос может содержать больше одного уровня ассоциации, как описано выше, и, таким образом, действие по сообщению информации может быть идентифицировано для каждого уровня ассоциации.A semantic relationship is shown at block 1030 and may be defined between each communication action and another search term to create an association between words. Semantic relationships can be based on certain semantic information, as described above. Associations are linked by relational elements that describe the association, such as, in particular, the agent, location, topic, or "what about". Other relational elements, of course, are also meant to be present within the scope of the present invention. At block 1040, a judgment is created containing the generated associations between each information reporting action and one or more search terms analyzed from the request. When a proposition is created, the proposition (e.g., associations within the proposition) can be compared or checked against one or more semantic representations stored in the semantic index 260 to, for example, determine the most relevant matches for the proposition. In one embodiment, the request may contain more than one association level, as described above, and thus, an information reporting action can be identified for each association level.

На фиг.11 показана соответствующая варианту осуществления настоящего изобретения блок-схема 1100 последовательности выполнения операций способа для построения семантических взаимоотношений между элементами, извлеченными из содержимого документа, чтобы создать семантическое представление содержимого, дополнительно позволяя индексацию содержимого. На этапе 1110 идентифицируется, по меньшей мере, часть документа (например, Web-документа), который должен индексироваться. Текстовая часть документа анализируется, чтобы идентифицировать элементы, которые должны быть семантически представлены, как показано на этапе 1120. На этапе 1130 обращаются к хранилищу данных, чтобы определить потенциальные значения и грамматические функции идентифицированных элементов.11 shows a flowchart 1100 of a method for constructing semantic relationships between elements extracted from a document content in order to create a semantic representation of the content, further enabling indexing of the content, corresponding to an embodiment of the present invention. At 1110, at least a portion of the document (e.g., a Web document) to be indexed is identified. The text portion of the document is analyzed to identify elements that should be semantically represented, as shown at block 1120. At block 1130, a data store is consulted to determine the potential values and grammatical functions of the identified elements.

Продолжая ссылку на фиг.11, на этапе 1140 определяются один или более уровней ассоциации в пределах текстовой части. Действие по сообщению информации в пределах текстовой части идентифицируется для каждого одного или более определенных уровней ассоциации, показанных на этапе 1150. Затем, на этапе 1160, первое действие по сообщению информации ассоциируется с первым набором идентифицированных элементов, которые определяются посредством анализа семантических взаимоотношений между элементами, определенными выше на этапе 1120, и определенным действием предоставления информации. Первое действие по сообщению информации ассоциируется с первым уровнем ассоциации. Второе действие по сообщению информации на этапе 1170 ассоциируется со вторым набором идентифицированных элементов и второе действие по сообщению информации ассоциируется со вторым уровнем ассоциации. Семантическое представление ассоциаций может затем быть создано на этапе 1180, так чтобы оно могло храниться в семантическом индексе 260, например, для дальнейшего анализа, в том числе, для сравнения с суждением запроса, как описано выше.Continuing with reference to FIG. 11, at 1140, one or more association levels are determined within the text portion. An information reporting action within the text part is identified for each one or more specific association levels shown in step 1150. Then, in step 1160, the first information reporting action is associated with a first set of identified elements that are determined by analyzing semantic relationships between the elements, defined above at step 1120, and a specific act of providing information. The first communication action is associated with the first level of association. The second information reporting step in step 1170 is associated with a second set of identified elements and the second information reporting step is associated with a second association level. A semantic representation of the associations can then be created at block 1180, so that it can be stored in the semantic index 260, for example, for further analysis, including for comparison with the judgment of the query, as described above.

Настоящее изобретение было описано со ссылкой на конкретные варианты осуществления, которые во всех отношениях предназначены быть примерами, но не ограничениями. Альтернативные варианты осуществления станут очевидны специалистам в области техники, к которой относится настоящее изобретение, не отступая от его объема.The present invention has been described with reference to specific embodiments, which are in all respects intended to be examples, but not limitation. Alternative embodiments will become apparent to those skilled in the art to which the present invention relates without departing from its scope.

Из вышесказанного должно быть видно, что это изобретение хорошо подходит для достижения всех целей и задач, изложенных выше, вместе с другими преимуществами, которые очевидны и свойственны предложенным способам. Следует понимать, что конкретные признаки и их комбинации обладают полезностью и могут использоваться независимо от других признаков и их комбинаций. Это предусматривается и объемом формулы изобретения.From the foregoing, it should be seen that this invention is well suited to achieve all the goals and objectives set forth above, together with other advantages that are obvious and inherent in the proposed methods. It should be understood that specific features and their combinations are useful and can be used independently of other features and their combinations. This is contemplated by the scope of the claims.

Claims

1. A computer-implemented method for constructing semantic relationships between elements extracted from the contents of a document in order to form a semantic representation of the content containing the steps in which:
identify the text part of the document;
determining semantic information for a plurality of elements identified in the text part, the semantic information including one or more of the semantic values of the identified elements and grammatical functions of the identified elements;
identifying at least one of the identified elements as a subject in the text part;
at least one of the identified elements is identified as an action of communicating information corresponding to the relation message, wherein the relation message describes the relationship of the subject to a particular subject of the text part;
based on the specific semantic information for the identified elements, the identified elements are associated so that each association of the identified elements represents a particular semantic relationship; and
form a semantic representation that represents the associations of identified elements with each other.

2. The method of claim 1, wherein the text portion comprises at least one of one or more sentences, a table, a template, and a plurality of data.

3. The method of claim 1, further comprising accessing the data store to retrieve at least a portion of the content from the document.

4. The method according to claim 1, further comprising a step of parsing the text part of the document to identify the aforementioned set of elements that should be included in the semantic representation.

5. The method according to claim 1, further comprising the step of recognizing one or more objects in the text portion, these one or more objects being recognized by searching a predetermined list of words stored in the data warehouse.

6. The method according to claim 1, further comprising a step of associating with each of the identified elements a plurality of words having similar semantic meaning.

7. The method according to claim 1, in which when associating the identified elements identify one or more levels of association within the text part, each of these one or more levels of association includes one or more of the identified elements.

8. The method according to claim 7, further comprising stages in which:
identifying an action for reporting information for at least one of said one or more association levels; and
associating the first information reporting action with each of the first set of identified elements, wherein the first information reporting action is associated with the first association level.

9. The method of claim 8, further comprising associating a second information communication step with each of a second set of identified elements, the second information communication step associating with a second association level.

10. The method of claim 8, wherein the first information reporting action and each of the first set of identified elements are associated through a relational element that describes the association.

11. The method according to claim 10, further comprising the step of indexing the semantic representation, wherein the semantic representation containing the identified elements and relational elements is stored in the index for retrieval, the index being searchable.

12. The method according to claim 11, in which the index includes pointers from the semantic representation to its associated text part, which is stored in the data warehouse.

13. A computer-implemented method for creating, in response to receiving a request for associations between various terms retrieved from a request, to generate a judgment used to poll semantic representations of content from documents stored in a semantic index to provide relevant search results, the method comprising the steps , where:
determining semantic information for one or more search terms;
identify the first action by reporting information within the request;
based on said specific semantic information for one or more search terms, a semantic relationship is determined between the first action for reporting information and at least one of the one or more search terms, thereby creating an association using a relational element that describes this semantic relationship; and
generating a judgment, the judgment comprising an association between the first information reporting action and the at least one of the one or more search terms.

14. The method of claim 13, further comprising parsing the request to determine one or more search terms.

15. The method according to item 13, in which the semantic information contains one or more of the semantic values of the identified elements and grammatical functions of the identified elements.

16. The method according to item 13, further comprising a step of associating with each of said one or more search terms a plurality of words having a similar semantic meaning to said at least one of one or more search terms.

17. The method according to item 13, in which the judgment is a logical representation of the semantic meaning of the query, which is used to query the semantic relationships contained among the semantic representations of content from documents.

18. The method according to item 13, further comprising stages in which:
identify the second action by reporting information in the request; and
based on said specific semantic information for said one or more search terms, a semantic relationship is determined between the second information reporting action and said at least one of the one or more search terms, thereby creating an association through a relational element that describes a semantic relationship.

19. The method of claim 13, further comprising comparing the judgment with one or more of the semantic representations stored in the semantic index to determine one or more matching pairs.

20. A computer-readable medium on which computer-implemented instructions are implemented to perform a method of constructing semantic relationships between elements extracted from document content to form a semantic representation of the content, further providing the ability to index the content, the method comprising the steps of:
at least a part of the document to be indexed is identified, this at least part of the document being the text part;
parsing the text portion of the document to identify elements that should be semantically represented;
access a data warehouse to determine potential semantic meanings and grammatical functions of the identified elements;
define one or more levels of association within the text part, and these one or more levels of association contain at least a first level of association and a second level of association, so that the statement at the first level of association remains valid regardless of the statement at the second level of association, while the first the association level and the second association level are connected to each other through the action of communicating information associated with the first association level;
identify the action by reporting information within the text portion for each of the one or more specific association levels;
associating a first information reporting action with a first set of identified elements, the first information reporting action being associated with a first association level;
associating a second information reporting action with a second set of identified elements, the second information reporting action being associated with a second association level; and
form a semantic representation, including associations, by means of a relational element that describes these associations, between the first set of identified elements with the first action for reporting information and the second set of identified elements with a second action for reporting information.

21. A computer-readable medium that implements computer-used instructions for executing a method of constructing semantic relationships between elements extracted from document content to form a semantic representation of the content, further enabling content indexing, the method comprising the steps of:
identify the text part of the document for indexing;
determining semantic information for a plurality of elements identified in the text part, the semantic information including one or more of the semantic values of the identified elements and grammatical functions of the identified elements;
determining one or more association levels within the text portion;
identify the action by reporting information within the text portion for each of these one or more levels of association;
for the identified information communication action, at each of the one or more association levels mentioned, one or more “about” relationships between the information communication action and one or more of those identified in the text are identified;
associate each of the identified actions for reporting information with the aforementioned one or more identified elements for forming a relationship "about what", and these one or more identified elements describe what each respective action for reporting information; and
form a semantic representation that represents the association of actions to communicate information and identified elements with each other.