RU2556425C1 - Method for automatic iterative clusterisation of electronic documents according to semantic similarity, method for search in plurality of documents clustered according to semantic similarity and computer-readable media - Google Patents
Method for automatic iterative clusterisation of electronic documents according to semantic similarity, method for search in plurality of documents clustered according to semantic similarity and computer-readable media Download PDFInfo
- Publication number
- RU2556425C1 RU2556425C1 RU2014105486/08A RU2014105486A RU2556425C1 RU 2556425 C1 RU2556425 C1 RU 2556425C1 RU 2014105486/08 A RU2014105486/08 A RU 2014105486/08A RU 2014105486 A RU2014105486 A RU 2014105486A RU 2556425 C1 RU2556425 C1 RU 2556425C1
- Authority
- RU
- Russia
- Prior art keywords
- multidimensional
- documents
- proximity
- vector
- measure
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 103
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 8
- 230000003190 augmentative effect Effects 0.000 claims description 5
- 238000003491 array Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000047 product Substances 0.000 claims 1
- 239000013589 supplement Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 230000001502 supplementing effect Effects 0.000 abstract 1
- 238000007621 cluster analysis Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 235000019013 Viburnum opulus Nutrition 0.000 description 2
- 244000071378 Viburnum opulus Species 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013550 semantic technology Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Область техники, к которой относится изобретениеFIELD OF THE INVENTION
Настоящее изобретение относится к способу автоматической итеративной кластеризации электронных документов по семантической близости, способу поиска в совокупности кластеризованных по семантической близости документов, а также к машиночитаемым носителям с программами для реализации этих способов.The present invention relates to a method for automatically iteratively clustering electronic documents by semantic proximity, a method for searching collectively clustered by semantic proximity documents, and also to computer-readable media with programs for implementing these methods.
Уровень техникиState of the art
Огромные объемы информации в сети Интернет приводят к тому, что количество объектов, выдаваемых по запросу пользователя, очень велико. Общей проблемой, снижающей эффективность работы пользователя с поисковой системой, является избыточность информации при выдаче результатов по запросу. Это затрудняет процесс обзора результатов и выбора наиболее подходящих материалов (статей, публикаций, отчетов и др.) из множества найденных.The huge amount of information on the Internet leads to the fact that the number of objects issued at the request of the user is very large. A common problem that reduces the user’s efficiency with the search engine is the redundancy of information when issuing results on request. This complicates the process of reviewing the results and selecting the most suitable materials (articles, publications, reports, etc.) from the many found.
В настоящее время известны различные способы кластеризации документов по их семантической близости, позволяющие в дальнейшем проводить поиск в совокупности таких документов.At present, various methods for clustering documents by their semantic proximity are known, allowing further searches in the aggregate of such documents.
Так, в патенте РФ №2268488 (опубл. 20.01.2006) раскрыт способ, в котором кодируют слова, фразы, идиомы, предложения и даже идеи для последующей числовой обработки, в том числе кластеризации. В патенте РФ №2273879 (опубл. 10.04.2006) приведен способ, в котором проводят морфологический и синтаксический анализ текста с последующей индексацией найденных единиц для отнесения текста к конкретному классу. В способе по патенту США №6871174 (опубл. 22.03.2005) определяют сходство текстов по текстовым фрагментам. В патенте ЕАПВ №002016 (опубл. 22.01.2001) описан способ, в котором во фрагментах текстового документа определяют уникальные блоки информации и используют их для последующей кластеризации и поиска. Недостаток всех этих способов состоит в том, что для их осуществления требуется очень большой объем памяти, т.к. при поступлении нового текста обработку приходится повторять для каждого уже обработанного текста.So, in the patent of the Russian Federation No. 2268488 (publ. 20.01.2006) a method is disclosed in which words, phrases, idioms, sentences and even ideas are encoded for subsequent numerical processing, including clustering. In the patent of the Russian Federation No. 2273879 (published on April 10, 2006), a method is given in which morphological and syntactic analysis of the text is carried out, followed by indexation of the found units for assigning the text to a specific class. In the method according to US patent No. 6871174 (publ. 22.03.2005) determine the similarity of texts by text fragments. The EAPO patent No. 002016 (published on January 22, 2001) describes a method in which unique blocks of information are determined in fragments of a text document and used for subsequent clustering and search. The disadvantage of all these methods is that their implementation requires a very large amount of memory, because when new text arrives, processing has to be repeated for each text already processed.
В патенте США №6189002 (опубл. 13.02.2001) раскрыт способ, в котором текст разбивают на абзацы и слова, которые преобразуют в векторы упорядоченных элементов. Каждый элемент вектора соответствует абзацу, найденному применением заданной функции к числу появлений в этом абзаце слова, соответствующего этому элементу. Текстовый вектор рассматривается как семантический профиль документа, пригодный для сопоставления в случае кластеризации. Однако с учетом многообразия абзацев данный способ также требует огромного массива запомненных данных.In US patent No. 6189002 (publ. 13.02.2001) disclosed a method in which the text is divided into paragraphs and words, which are converted into vectors of ordered elements. Each element of the vector corresponds to a paragraph found by applying a given function to the number of occurrences in this paragraph of the word corresponding to this element. The text vector is considered as the semantic profile of the document, suitable for comparison in the case of clustering. However, given the variety of paragraphs, this method also requires a huge array of stored data.
Раскрытие изобретенияDisclosure of invention
Задачей настоящего изобретения является разработка такого способа итеративной кластеризации электронных документов по семантической близости, который бы обеспечивал упрощение и ускорение как соответствующей обработки электронных документов, так и последующего поиска в кластеризованной совокупности тех документов, которые релевантны поисковому запросу.The objective of the present invention is to develop such a method of iteratively clustering electronic documents by semantic proximity, which would simplify and accelerate both the corresponding processing of electronic documents and the subsequent search in a clustered collection of those documents that are relevant to the search query.
Для решения этой задачи и достижения указанного технического результата в первом объекте настоящего изобретения предложен способ автоматической итеративной кластеризации электронных документов по семантической близости, заключающийся в том, что: преобразуют каждый подлежащий обработке электронный документ в соответствующий многомерный вектор в многомерном пространстве, размерности которого определяются содержащимися в электронном документе термами; находят меру близости полученного многомерного вектора к каждому из многомерных векторов уже имеющихся кластеров, объединяющих семантически близкие электронные документы, обработанные ранее; дополняют подлежащим обработке электронным документом тот из кластеров, для которого найденная мера близости минимальна; определяют для дополненного кластера его новый многомерный вектор; принимают в качестве темы дополненного кластера название того из электронных документов в данном кластере, для которого мера близости его многомерного вектора к определенному новому многомерному вектору минимальна.To solve this problem and achieve the technical result, the first object of the present invention proposes a method for automatic iterative clustering of electronic documents by semantic proximity, which consists in the following: convert each electronic document to be processed into a corresponding multidimensional vector in a multidimensional space, the dimensions of which are determined by those contained in electronic document terms; find a measure of proximity of the obtained multidimensional vector to each of the multidimensional vectors of existing clusters that combine semantically close electronic documents processed earlier; complement the cluster to be processed with an electronic document for which the measure of proximity found is minimal; determine for the augmented cluster its new multidimensional vector; they take as the theme of the augmented cluster the name of that of electronic documents in this cluster for which the measure of proximity of its multidimensional vector to a certain new multidimensional vector is minimal.
Особенность способа по первому объекту настоящего изобретения состоит в том, что могут накапливать совокупность подлежащих обработке электронных документов по мере их появления в течение заранее заданного интервала времени; после чего и осуществлять кластеризацию каждого из электронных документов в накопленной совокупности.A feature of the method according to the first object of the present invention is that they can accumulate a set of electronic documents to be processed as they appear during a predetermined time interval; after which clustering of each of the electronic documents in the accumulated aggregate is carried out.
Еще одна особенность способа по первому объекту настоящего изобретения состоит в том, что преобразование электронного документа в многомерный вектор может включать в себя этапы, на которых: планаризируют текст электронного документа; формируют массивы термов для планаризованного текста каждого из электронных документов, для чего токенизируют планаризованный текст, получая в результате сегменты в виде слов, знаков препинания, пробелов, и стеммируют токенизированный текст, выделяя в результате основы слов с помощью по меньшей мере одного из эвристических алгоритмов, после чего находят вес каждого терма в каждом из электронных документов, и выражают каждый из электронных документов в виде вектора в многомерном пространстве, размерности которого определяются найденными весами термов в тексте данного электронного документа.Another feature of the method according to the first object of the present invention is that the conversion of an electronic document into a multidimensional vector may include stages in which: planarize the text of the electronic document; form arrays of terms for the planarized text of each of the electronic documents, for which they planenized planarized text, resulting in segments in the form of words, punctuation marks, spaces, and stamped tokenized text, highlighting as a result of the word basis using at least one of heuristic algorithms, after which the weight of each term is found in each of the electronic documents, and each of the electronic documents is expressed as a vector in a multidimensional space, the dimensions of which are determined by found by the weights of terms in the text of this electronic document.
При этом вычисление веса каждого терма могут выполнять с использованием меры TF-IDF, представляющей собой произведение величиныMoreover, the calculation of the weight of each term can be performed using the measure TF-IDF, which is a product of the quantity
на величинуby the amount
. .
Еще одна особенность способа по первому объекту настоящего изобретения состоит в том, что нахождение меры близости многомерных векторов может включать в себя этапы, на которых: вычисляют косинусную меру близости между каждой парой многомерных векторов; разбивают все многомерные векторы на подмножества, в каждом из которых вычисленная косинусная мера близости между парой любых многомерных векторов меньше заранее заданного значения; рассчитывают вектор-центроид каждого из подмножеств как среднеарифметическое всех многомерных векторов данного подмножества; приписывают каждый многомерный вектор к подмножеству с ближайшим вектором-центроидом.Another feature of the method according to the first object of the present invention is that finding the proximity measure of multidimensional vectors may include the steps of: calculating the cosine measure of proximity between each pair of multidimensional vectors; divide all multidimensional vectors into subsets, in each of which the calculated cosine measure of proximity between a pair of any multidimensional vectors is less than a predetermined value; calculate the centroid vector of each of the subsets as the arithmetic mean of all multidimensional vectors of the given subset; each multidimensional vector is attributed to a subset with the nearest centroid vector.
Еще одна особенность способа по первому объекту настоящего изобретения состоит в том, что дополнительно могут осуществлять этапы, на которых: находят меру взаимной близости многомерных векторов для каждой пары кластеров; объединяют в соответствующий топик те кластеры, для которых найденные меры взаимной близости их многомерных векторов не превышают заранее заданное пороговое значение; определяют для топика его многомерный вектор; принимают в качестве темы топика тему того из входящих в него кластеров, для которого мера близости его многомерного вектора к определенному многомерному вектору этого топика минимальна.Another feature of the method according to the first object of the present invention is that they can additionally carry out the steps in which: they find a measure of the mutual proximity of multidimensional vectors for each pair of clusters; cluster those clusters for which the found measures of mutual closeness of their multidimensional vectors do not exceed a predetermined threshold value; determine its multidimensional vector for the topic; take as a topic topic the theme of that of its clusters, for which the measure of proximity of its multidimensional vector to a certain multidimensional vector of this topic is minimal.
Еще одна особенность способа по первому объекту настоящего изобретения состоит в том, что дополнительно могут осуществлять этапы, на которых: находят меру взаимной близости многомерных векторов для каждой пары топиков; объединяют в соответствующий супертопик те топики, для которых найденные меры взаимной близости их многомерных векторов не превышают заранее заданный порог; определяют для супертопика его многомерный вектор; принимают в качестве темы супертопика тему того из входящих в него топиков, для которого мера близости его многомерного вектора к определенному многомерному вектору этого супертопика минимальна.Another feature of the method according to the first object of the present invention is that they can additionally carry out the steps in which: they find a measure of the mutual proximity of multidimensional vectors for each pair of topics; combine those topics into the corresponding supertopic for which the found measures of mutual closeness of their multidimensional vectors do not exceed a predetermined threshold; determine for a supertop its multidimensional vector; take the topic of a supertopic as the topic of that of its topics, for which the measure of proximity of its multidimensional vector to a certain multidimensional vector of this supertopic is minimal.
Еще одна особенность способа по первому объекту настоящего изобретения состоит в том, что могут строить граф, узлами которого являются супертопики, а каждое из ребер представляет собой отношение близости связываемых этим ребром супертопиков, топиков и документов.Another feature of the method according to the first object of the present invention is that they can construct a graph whose nodes are supertopics, and each of the edges is the ratio of the proximity of the supertopics, topics and documents connected by this edge.
При этом могут составлять глобальный словарь термов для обеспечения возможности последующего проведения поиска фрагментов графа, релевантных конкретному поисковому документу.At the same time, they can compile a global glossary of terms to enable the subsequent search for fragments of the graph that are relevant to a particular search document.
Для решения той же задачи и обеспечения того же технического результата во втором объекте настоящего изобретения предложен способ поиска в совокупности кластеризованных по семантической близости документов, заключающийся в том, что: осуществляют кластеризацию электронных документов согласно способу по первому объекту настоящего изобретения, после чего выполняют поиск релевантных поисковому запросу электронных документов как фрагментов построенного графа.To solve the same problem and provide the same technical result, a second object of the present invention provides a search method for collectively clustered by semantic proximity documents, which consists in: clustering electronic documents according to the method according to the first object of the present invention, and then search for relevant search query of electronic documents as fragments of a constructed graph.
Для решения той же задачи и обеспечения того же технического результата в третьем объекте настоящего изобретения предложен машиночитаемый носитель, предназначенный для непосредственного участия в работе вычислительного средства и содержащий программу, которая при ее исполнении в вычислительном средстве обеспечивает выполнение способа по первому объекту настоящего изобретения.To solve the same problem and provide the same technical result, a third object of the present invention provides a machine-readable medium intended for direct participation in the work of a computing tool and containing a program that, when executed in a computing tool, provides the execution of the method according to the first object of the present invention.
Для решения той же задачи и обеспечения того же технического результата в четвертом объекте настоящего изобретения предложен машиночитаемый носитель, предназначенный для непосредственного участия в работе вычислительного средства и содержащий программу, которая при ее исполнении в вычислительном средстве обеспечивает выполнение способа по второму объекту настоящего изобретения.To solve the same problem and provide the same technical result, a fourth object of the present invention provides a machine-readable medium intended for direct participation in the work of a computing tool and containing a program that, when executed in a computing tool, provides the execution of the method according to the second aspect of the present invention.
Краткое описание чертежейBrief Description of the Drawings
Настоящее изобретение иллюстрируется прилагаемыми чертежами.The present invention is illustrated by the accompanying drawings.
На Фиг.1 показана блок-схема алгоритма семантической кластеризации электронных документов в соответствии с настоящим изобретением.Figure 1 shows a block diagram of a semantic clustering algorithm for electronic documents in accordance with the present invention.
На Фиг.2 проиллюстрировано определение меры близости векторов.Figure 2 illustrates the definition of a measure of proximity of vectors.
На Фиг.3 проиллюстрирован принцип кластеризации по методу Canopy.Figure 3 illustrates the principle of Canopy clustering.
На Фиг.4 показан граф, отображающий принцип, заложенный в способ по настоящему изобретению.Figure 4 shows a graph depicting the principle embodied in the method of the present invention.
На Фиг.5 приведен скриншот части графа, возвращаемого на запрос «марс условия для жизни» в системе, использующей данное изобретение.Figure 5 shows a screenshot of part of the graph returned to the query "Mars living conditions" in a system using this invention.
На Фиг.6 приведен пример отчета, формируемого системой по некоторым отборочным критериям.Figure 6 shows an example of a report generated by the system according to some selection criteria.
Подробное описание вариантов осуществленияDetailed Description of Embodiments
Задача уменьшения избыточности может решаться различными способами. В большинстве случаев огромные объемы информации можно сделать доступными для восприятия, если уметь разбивать источники информации, например web-страницы, на тематические группы. Тогда пользователь может сразу отбрасывать множество документов из групп с малой релевантностью. Такой процесс группировки текстовых данных осуществляется с помощью кластеризации.The problem of reducing redundancy can be solved in various ways. In most cases, huge amounts of information can be made accessible to perception if you can break down information sources, such as web pages, into thematic groups. Then the user can immediately drop many documents from groups with low relevance. This process of grouping text data is carried out using clustering.
Кластеризация выборки документов представляет собой эффективное средство повышения качества диалога пользователя с поисковой системой, позволяющее проводить разбиение полученной выборки по тематическим признакам. Целью кластеризации документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов, когда никакие характеристики этих групп не задаются заранее.Clustering a sample of documents is an effective means of improving the quality of a user’s dialogue with a search engine, allowing them to be partitioned by topic. The purpose of document clustering is to automatically identify groups of semantically similar documents among a given fixed set of documents when no characteristics of these groups are specified in advance.
Способ автоматической итеративной кластеризации электронных документов по семантической близости в соответствии с настоящим изобретением предназначен для повышения эффективности обработки информации, содержащейся в различных источниках, с целью обеспечения процессов управления данными, извлекаемыми из различных электронных источников научно-технической информации с использованием инновационных семантических технологий. Этот способ может осуществляться в системе, представляющей собой или включающей в себя вычислительное средство (сервер, персональный компьютер, и т.п.), запрограммированное для выполнения описываемых ниже действий.The method of automatic iterative clustering of electronic documents by semantic proximity in accordance with the present invention is intended to increase the efficiency of processing information contained in various sources, in order to provide processes for managing data extracted from various electronic sources of scientific and technical information using innovative semantic technologies. This method can be implemented in a system that is or includes a computing tool (server, personal computer, etc.) programmed to perform the steps described below.
Для выявления семантической близости электронных документов особую актуальность имеют методы интеллектуального анализа данных. Основная особенность этих методов заключается в установлении наличия и характера скрытых закономерностей в данных, тогда как традиционные статистические методы занимаются главным образом параметрической оценкой уже установленных закономерностей. Среди методов интеллектуального анализа данных особое место занимает кластеризация. Кластеризация, основываясь на отношении схожести элементов, устанавливает подмножества (кластеры), в которые группируются входные данные.To identify the semantic proximity of electronic documents, data mining methods are of particular relevance. The main feature of these methods is to establish the presence and nature of hidden patterns in the data, while traditional statistical methods deal mainly with the parametric assessment of patterns already established. Among the methods of data mining, clustering occupies a special place. Clustering, based on the relationship of similarity of elements, establishes the subsets (clusters) into which the input data is grouped.
Обычно источниками обрабатываемых документов служат различные наборы документов сети Интернет. Определение значимых источников осуществляется пользователем с учетом его информационных и аналитических потребностей и возможностей, предоставляемых информационным пространством (наличие источников, наличие сведений о тех или иных объектах и т.п.), т.е. выясняется круг рассматриваемых источников информации, содержание предметной области.Usually, various sets of Internet documents serve as sources of processed documents. The determination of significant sources is carried out by the user, taking into account his informational and analytical needs and capabilities provided by the information space (availability of sources, availability of information about certain objects, etc.), i.e. the circle of the considered sources of information, the content of the subject area.
При этом пользователь определяет тип информационной потребности и ее ограничения (по видам изданий, языкам публикаций, по географическим и хронологическим рамкам и т.п.).In this case, the user determines the type of information need and its limitations (by type of publication, publication language, geographical and chronological framework, etc.).
Как правило, у пользователей существуют предпочтительные наборы ресурсов сети Интернет по тематике их деятельности. Список информационных ресурсов формируется таким образом, чтобы ресурсы, дополняя друг друга, максимально охватывали информацию по данной теме.As a rule, users have preferred sets of Internet resources on the subject of their activities. The list of information resources is formed in such a way that resources complementing each other maximally cover information on this topic.
Исходными данными для реализации способов по настоящему изобретению является поток привязанных ко времени документов, который приходит в систему. Каждый документ рассматривается в качестве исходного информационного объекта, обладающего временем создания (появления) и уникальным идентификатором - унифицированным указателем ресурсов (УУР, URL - Uniform Resource Locator).The source data for implementing the methods of the present invention is the flow of time-related documents that comes into the system. Each document is considered as a source information object with a creation (appearance) time and a unique identifier - a unified resource locator (URL, Uniform Resource Locator).
Задачей системы, реализующей способы по настоящему изобретению, является группировка входящего потока документов по темам и установление близости между темами. Система оперирует экземплярами объектов нескольких типов - документы, топики, супертопики, поясняемые далее. Каждый экземпляр любого из типов объектов имеет в системе свой уникальный номер.The task of the system that implements the methods of the present invention is to group the incoming document flow by topics and to establish the proximity between the topics. The system operates with instances of objects of several types - documents, topics, supertopics, explained below. Each instance of any of the types of objects in the system has its own unique number.
Начальной операцией, выполняемой системой, является пополнение базы данных системы исходными информационными объектами. Специалистам понятно, что подлежащий кластеризации текст необходимо представить в электронной форме для последующей автоматизированной обработки. Этот этап на Фиг.1 условно обозначен ссылочной позицией 1 и может быть выполнен любым известным способом, например сканированием текста с последующим распознаванием с помощью общеизвестных средств типа ABBYY FineReader. Если же текст поступает на обработку из электронной сети, к примеру из Интернета, то этап его представления в электронной форме выполняется заранее, до размещения этого текста в сети. Поэтому на блок-схеме Фиг.1 этап представления документа в электронной форме показан пунктиром. Для каждого из таких объектов в базе данных системы сохраняется исходный вид документа в оригинальном формате (поз.2 на Фиг.1). На его основе получают текст документа, извлеченный из документа в оригинальном формате, именуемый планаризованным текстом (поз.3 на Фиг.1).The initial operation performed by the system is to replenish the system database with the initial information objects. Specialists understand that the text to be clustered must be submitted in electronic form for subsequent automated processing. This step in Fig. 1 is conventionally indicated by the reference number 1 and can be performed in any known manner, for example, by scanning the text and then recognizing it using well-known means such as ABBYY FineReader. If the text is received for processing from an electronic network, for example, from the Internet, then the stage of its submission in electronic form is performed in advance, before this text is posted on the network. Therefore, in the flowchart of FIG. 1, the step of presenting the document in electronic form is shown in dotted lines. For each of these objects, the original document format is saved in the system database in the original database (item 2 in FIG. 1). On its basis, the text of the document is extracted, extracted from the document in the original format, referred to as planarized text (item 3 in FIG. 1).
Далее формируют массивы термов для планаризованного текста каждого из сохраненных электронных документов. Для этого сначала планаризованный текст токенизируют, получая в результате сегменты в виде слов, знаков препинания, пробелов. Т.е. текст сегментируется на элементарные единицы, именуемые токенами (token). Токеном может быть любой объект из следующих: слова, состоящие каждое из последовательности букв и, возможно, дефисов; последовательность пробелов; знаки препинания; числа (к примеру, 2012, Тянь-Шань). Иногда сюда же относят такие последовательности символов, как А300, i150b и т.п. Выделение токенов всегда осуществляется по достаточно простым правилам, например, как в заявке на патент США №2007/0073533 (опубл. 29.03.2007). После этого токенизированный текст стеммируют, т.е. выделяют основы слов с помощью любого из известных эвристических алгоритмов - например, используя такие библиотеки как Snowball (см. http://snowball.tartarus.org/) и Ispell (см. http://www.gnu.org/software/ispell/). На Фиг.1 этот этап условно обозначен ссылочной позицией 4.Next, form arrays of terms for the planarized text of each of the stored electronic documents. To do this, first planarized text is tokenized, resulting in segments in the form of words, punctuation, spaces. Those. text is segmented into elementary units called tokens. A token can be any object of the following: words consisting of each sequence of letters and, possibly, hyphens; sequence of spaces; punctuation marks; numbers (for example, 2012, Tien Shan). Sometimes sequences of symbols such as А300, i150b, etc. are also included here. The allocation of tokens is always carried out according to fairly simple rules, for example, as in the application for US patent No. 2007/0073533 (published on March 29, 2007). After that, the tokenized text is stamped, i.e. isolate the basics of words using any of the well-known heuristic algorithms - for example, using libraries such as Snowball (see http://snowball.tartarus.org/) and Ispell (see http://www.gnu.org/software/ispell /). In figure 1, this step is conventionally indicated by the reference position 4.
После этого находят вес каждого терма в сформированном массиве термов в каждом из электронных документов (поз.5 на Фиг.1). Это вычисление веса каждого терма можно выполнять, например, с использованием меры TF-IDF, представляющей собой произведение величиныAfter that, the weight of each term is found in the generated array of terms in each of the electronic documents (item 5 in FIG. 1). This calculation of the weight of each term can be performed, for example, using the measure TF-IDF, which is a product of the quantity
на величинуby the amount
. .
В принципе, веса термов можно находить и иначе, к примеру, так, как описано в вышеупомянутом патенте США №6189002.In principle, the weights of the terms can be found differently, for example, as described in the aforementioned US patent No. 6189002.
После того, как найдены веса всех термов, входящих в текст конкретного электронного документа, этот электронный документ выражают в виде вектора в многомерном пространстве (поз.6 на Фиг.1). Например, если для данного документа выписать по порядку веса всех термов, включая те, которых нет в этом документе, получится вектор, который и будет представлением данного документа в векторном пространстве. Размерности этого пространства определяются найденными весами термов в тексте данного электронного документа. Т.е. вес терма в документе - это «важность» слова, исходного для этого терма, при идентификации данного текста. Если подсчитать количество употреблений терма в документе, так называемую частоту терма, то чем чаще слово встречается в документе, тем больший у него будет вес. Если терм не встречается в документе, то его вес в этом документе равен нулю.After the weights of all terms included in the text of a particular electronic document are found, this electronic document is expressed as a vector in multidimensional space (item 6 in FIG. 1). For example, if for this document we write in order the weight of all terms, including those that are not in this document, we get a vector, which will be the representation of this document in vector space. The dimensions of this space are determined by the found term weights in the text of this electronic document. Those. the weight of a term in a document is the “importance” of the word source for that term when identifying the given text. If you count the number of terms used in a document, the so-called frequency of a term, then the more often a word appears in a document, the more weight it will have. If the term does not appear in the document, then its weight in this document is equal to zero.
В результате выполнения этапов, обозначенных ссылочными позициями 1-6 на Фиг.1, выполняется преобразование каждого подлежащего обработке электронного документа в соответствующий многомерный вектор в многомерном пространстве. Можно сказать, что сформированный многомерный вектор представляет собой упорядоченный набор чисел с длиной, равной числу записей в упорядоченном словаре термов, встречающихся в документах, где каждому терму соответствует величина TF-IDF. Термы представляют собой упоминаемые в документах слова, приведенные к нормальной форме.As a result of the steps indicated by the reference numbers 1-6 in FIG. 1, each electronic document to be processed is converted into a corresponding multidimensional vector in multidimensional space. We can say that the generated multidimensional vector is an ordered set of numbers with a length equal to the number of entries in the ordered glossary of terms found in documents, where each term corresponds to TF-IDF. Terms are words referred to in documents in a normal form.
Далее находят меру близости полученного многомерного вектора к каждому из многомерных векторов в уже имеющихся кластерах, объединяющих семантически близкие электронные документы, обработанные ранее (поз.7 на Фиг.1). Такую меру можно вычислять так же, как описано в уже упомянутом патенте США №6189002. Однако предпочтительно использовать косинусную меру близости векторов и весов термов документов:Next, find a measure of the proximity of the resulting multidimensional vector to each of the multidimensional vectors in existing clusters, combining semantically close electronic documents processed earlier (item 7 in FIG. 1). Such a measure can be calculated in the same way as described in the already mentioned US patent No. 6189002. However, it is preferable to use a cosine measure of proximity of vectors and document term weights:
, ,
гдеWhere
-, i=1, 2 - вектор в пространстве термов , извлекаемых из всего множества документов .- , i = 1, 2 - a vector in the space of terms retrieved from a wide variety of documents .
- - скалярное произведение векторов весов, вычисляемое по формуле- is the scalar product of weight vectors calculated by the formula
, где xi, yi, - i-e координаты векторов, , where x i , y i , - ie the coordinates of the vectors,
- , k=1, 2 - евклидова норма вектора, вычисляемая по формуле- , k = 1, 2 - the Euclidean norm of the vector, calculated by the formula
, ,
а, xi - координата вектора (вес i-го терма), вычисляемая по формулеa, x i - coordinate of the vector (weight of the i-th term), calculated by the formula
, ,
в которой tft - частота (число упоминаний) терма t в данном документе, N - общее количество документов, а Nt - число документов, в которых встречается хотя бы один терм t. Отметим, что tft - это определенная выше величина TF для терма t.in which tf t is the frequency (number of references) of the term t in this document, N is the total number of documents, and N t is the number of documents in which at least one term t occurs. Note that tf t is the TF value defined above for the term t.
На Фиг.2 проиллюстрировано определение меры близости векторов d1 и d2 в некотором пространстве.Figure 2 illustrates the determination of the proximity measure of vectors d 1 and d 2 in some space.
После нахождения меры близости вектора в документе, подлежащем обработке, с векторами в уже имеющихся кластерах выполняют этап (поз.8 на Фиг.1), на котором дополняют этим подлежащим обработке электронным документом тот из уже имеющихся кластеров, для которого найденная на предыдущем этапе мера близости минимальна. Если же речь идет о начальной кластеризации нескольких документов (когда кластеры еще не определены) или о предварительной кластеризации совокупности еще не обработанных электронных документов (в случае их накопления в течение заранее заданного или произвольного интервала времени), то кластерный анализ может производиться следующим образом.After finding the proximity measure of the vector in the document to be processed, with the vectors in the already existing clusters, perform the step (pos. 8 in FIG. 1), in which the existing clusters for which the measure found in the previous step are supplemented by this electronic document to be processed proximity is minimal. If we are talking about the initial clustering of several documents (when the clusters have not yet been determined) or the preliminary clustering of a set of not yet processed electronic documents (if they accumulate over a predetermined or arbitrary time interval), then cluster analysis can be performed as follows.
Вообще кластерный анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров). Кластерный анализ предполагает выделение компактных, удаленных друг от друга групп объектов, отыскивает «естественное» разбиение совокупности на области скопления объектов. Он используется, когда исходные данные представлены в виде матриц близости или расстояний между объектами либо в виде точек в многомерном пространстве. Наиболее распространены данные второго вида, для которых кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки. В настоящем изобретении точками в многомерном пространстве условно являются концы найденных многомерных векторов.In general, cluster analysis is a way of grouping multidimensional objects, based on the presentation of the results of individual observations by points of a suitable geometric space, followed by the allocation of groups as “clumps” of these points (clusters). Cluster analysis involves the selection of compact, distant from each other groups of objects, looking for a “natural” partition of the population into areas of cluster objects. It is used when the source data is presented in the form of matrices of proximity or distance between objects or in the form of points in multidimensional space. The most common are data of the second type, for which cluster analysis is focused on identifying some geometrically remote groups within which objects are close. In the present invention, the points in multidimensional space are conditionally the ends of the found multidimensional vectors.
Таким образом, кластеризация - это разбиение множества документов на кластеры, т.е. подмножества, параметры которых заранее неизвестны. Количество кластеров может быть произвольным или фиксированным. Все методы кластеризации можно разделить на числовые и нечисловые. Числовые методы используют числовые характеристики о документах, а нечисловые методы используют для работы непосредственно слова и фразы, составляющие текст. Существуют статистические, иерархические и графовые алгоритмы кластеризации.Thus, clustering is the partitioning of multiple documents into clusters, i.e. subsets whose parameters are not known in advance. The number of clusters can be arbitrary or fixed. All clustering methods can be divided into numerical and non-numerical. Numerical methods use numerical characteristics about documents, and non-numerical methods use directly the words and phrases that make up the text. There are statistical, hierarchical and graph clustering algorithms.
В настоящем изобретении кластеризация реализована как последовательный многоступенчатый процесс, на отдельных этапах которого выполняется «классическая» кластеризация некоторой порции данных посредством любого хорошо себя зарекомендовавшего алгоритма. Например, в практической реализации системы предпочтительно используется алгоритм кластеризации, именуемый методом Canopy (метод «навесов») (см. http://www.kamalnigam.com/papers/canopy-kdd00.pdf).In the present invention, clustering is implemented as a sequential multi-stage process, at the individual stages of which the “classical” clustering of a certain portion of data is performed using any well-established algorithm. For example, in the practical implementation of the system, the clustering algorithm, called the Canopy method (“canopy” method) is preferably used (see http://www.kamalnigam.com/papers/canopy-kdd00.pdf).
Основная идея этого метода заключается в выполнении кластеризации в два этапа, из которых первый этап является грубым и быстрым, он делит данные на пересекающиеся подмножества, называемые canopies («навесы»), а затем может применяться второй, более тщательный этап, на котором проводятся более затратные измерения расстояний только между точками, которые имеются под общим canopy («навесом»).The main idea of this method is to perform clustering in two stages, of which the first stage is rough and fast, it divides the data into intersecting subsets called canopies, and then a second, more thorough stage can be applied, where more costly distance measurements only between points that are under a common canopy ("canopy").
На первом этапе используется незатратное измерение расстояний для того, чтобы создать некоторое количество перекрывающихся подмножеств, называемых «навесами». «Навес» (canopy) - это просто подмножество элементов (т.е. точек данных или элементов), которые, в соответствии с приближенным измерением сходств, находятся на некотором расстоянии от центральной точки. Что особенно важно, элемент может оказаться под более чем одним «навесом», а каждый элемент должен находиться, по крайней мере, только под одним «навесом». «Навесы» создаются с тем намерением, что точки, которые не входят в какие-либо общие «навесы», находятся на достаточном удалении друг от друга, и, таким образом, не могут находиться в одном кластере. На Фиг.3 круги со сплошными линиями показывают пример перекрытия «навесов», которые охватывают наборы данных.The first step uses a non-cost distance measurement in order to create a number of overlapping subsets called “awnings”. A canopy is simply a subset of elements (ie, data points or elements) that, according to an approximate measurement of similarities, are at some distance from the center point. Most importantly, an element can be under more than one “canopy”, and each element must be at least one “canopy”. “Canopies” are created with the intention that points that are not included in any common “canopies” are located at a sufficient distance from each other, and thus cannot be in the same cluster. 3, circles with solid lines show an example of overlapping “awnings” that span data sets.
Таким образом, после нахождения многомерных векторов и вычисления меры их попарной близости (т.е. после этапа 8 на Фиг.1) все полученные многомерные векторы разбивают на подмножества, в каждом из которых вычисленная мера близости (например, косинусная мера близости) между парой любых многомерных векторов меньше заранее заданного значения. При этом рассчитывают вектор-центроид каждого из полученных подмножеств как среднеарифметическое всех многомерных векторов данного подмножества (поз.9 на Фиг.1).Thus, after finding the multidimensional vectors and calculating the measure of their pairwise proximity (i.e., after step 8 in Figure 1), all the obtained multidimensional vectors are divided into subsets, in each of which the calculated measure of proximity (for example, the cosine measure of proximity) between a pair any multidimensional vectors are less than a predetermined value. In this case, the centroid vector of each of the obtained subsets is calculated as the arithmetic mean of all multidimensional vectors of this subset (item 9 in FIG. 1).
На втором этапе метода «навесов» каждой точке приписывается только один кластер по принципу: каждая точка (т.е. каждый вектор) многомерного пространства приписывается к самому близкому центроиду. Классический алгоритм использует метрику расстояний и два порога расстояний Т1>Т2. Для каждой из множества точек, если расстояние от некоторой точки в конкретном кластере <Т1, эта точка добавляется в данный кластер (сплошные круги на Фиг.3). Далее, если это расстояние <Т2, то данная точка удаляется из дальнейшего рассмотрения и считается принадлежащей данному «навесу» (пунктирные круги на Фиг.3), что позволяет понизить вычислительную сложность алгоритма. Таким образом, объект (точка), очень близкий к центру будущего кластера, будет исключен (исключена) из дальнейшей обработки. Алгоритм повторяется до тех пор, пока начальный набор не станет пустым.At the second stage of the canopy method, only one cluster is assigned to each point according to the principle: each point (i.e. each vector) of a multidimensional space is assigned to the closest centroid. The classical algorithm uses a distance metric and two distance thresholds T1> T2. For each of the many points, if the distance from a certain point in a particular cluster is <T1, this point is added to this cluster (solid circles in FIG. 3). Further, if this distance is <T2, then this point is removed from further consideration and is considered to belong to this "canopy" (dashed circles in Figure 3), which allows to reduce the computational complexity of the algorithm. Thus, an object (point), very close to the center of the future cluster, will be excluded (excluded) from further processing. The algorithm is repeated until the initial set is empty.
Затем выполняется формирование кластеров на основе полученных центроидов (среднеарифметическое всех точек, входящих в данный «навес»). Для каждой точки осуществляется поиск ближайшего центроида (центра данного «навеса», центра круга на Фиг.3). Каждая точка приписывается к самому близкому центроиду. При этом количество кластеров становится равным количеству «навесов».Then the formation of clusters is carried out on the basis of the obtained centroids (arithmetic mean of all points included in this “canopy”). For each point, the nearest centroid is searched (the center of this “canopy”, the center of the circle in FIG. 3). Each point is assigned to the closest centroid. In this case, the number of clusters becomes equal to the number of “canopies”.
После выполнения этапа дополнения кластера новым документом (поз.8 на Фиг.1) определяют для этого дополненного кластера его новый многомерный вектор (поз.10 на Фиг.1) как среднеарифметическое прежнего вектора этого кластера и вектора добавленного документа. Затем принимают в качестве темы упомянутого дополненного кластера название того из электронных документов в данном кластере, для которого мера близости его многомерного вектора к определенному новому многомерному вектору минимальна (поз.11 на Фиг.1).After the stage of adding a cluster to a new document (pos. 8 in Fig. 1), its new multidimensional vector (pos. 10 in Fig. 1) is determined as the arithmetic mean of the previous vector of this cluster and the vector of the added document. Then, they take as the theme of the aforementioned augmented cluster the name of that of electronic documents in this cluster for which the measure of proximity of its multidimensional vector to a certain new multidimensional vector is minimal (pos. 11 in FIG. 1).
На Фиг.4 представлен шаблон графа, в который укладываются кластеры, полученные в результате вышеописанной кластеризации.Figure 4 presents the graph template, which fit the clusters obtained as a result of the above clustering.
Горизонтальные ребра в этом графе есть иерархические обобщающие отношения между сущностями. Ребро документ-топик представляет тот факт, что документ является частью кластера, состоящего из близких по смыслу документов. Ребро топик-супертопик обобщает уже кластеры на более высоком уровне. Представленный шаблон в зависимости от природы или структуры исходных документов может быть продолжен вправо (гипертопики и т.д.) для достижения более высоких степеней обобщения.The horizontal edges in this graph are hierarchical generalizing relationships between entities. The edge of the document-topic is the fact that the document is part of a cluster consisting of documents that are close in meaning. The top-super-top edge already generalizes clusters at a higher level. The presented template, depending on the nature or structure of the source documents, can be continued to the right (hypertopics, etc.) to achieve higher degrees of generalization.
Чем выше иерархия, тем меньше число сущностей на данном уровне. И чем выше иерархия, тем выше степень обобщения. Эти факты важны при использовании полученной структуры для ускорения информационного поиска и для представления огромных массивов информации в структурированном и обобщенном виде.The higher the hierarchy, the lower the number of entities at a given level. And the higher the hierarchy, the higher the degree of generalization. These facts are important when using the resulting structure to speed up information retrieval and to present huge amounts of information in a structured and generalized form.
Ребра-дуги связывают сущности внутри каждого уровня иерархии. Эти связи полезны для расширения списка найденных документов близкими по смыслу документами.Edge arcs connect entities within each level of the hierarchy. These links are useful for expanding the list of documents found by documents that are close in meaning.
Именно способ получения описанной выше структуры и является основным предметом данного изобретения.It is the method of obtaining the structure described above that is the main subject of this invention.
Специфика способа по настоящему изобретению состоит в том, что уже имеющиеся кластеры обрабатывают как отдельные документы. Т.е. находят многомерный вектор каждого кластера (фактически он уже найден после дополнения кластера очередным электронным документом); находят меру взаимной близости многомерных векторов для каждой пары кластеров; объединяют в соответствующий топик (topic) те кластеры, для которых найденные меры взаимной близости их многомерных векторов не превышают заранее заданное пороговое значение; определяют многомерный вектор для топика; принимают в качестве темы топика тему того из входящих в него кластеров, для которого мера близости его многомерного вектора к определенному многомерному вектору этого топика минимальна.The specificity of the method of the present invention is that existing clusters are processed as separate documents. Those. find the multidimensional vector of each cluster (in fact, it has already been found after the cluster has been supplemented with another electronic document); find a measure of the mutual proximity of multidimensional vectors for each pair of clusters; cluster those clusters for which the found measures of mutual proximity of their multidimensional vectors do not exceed a predetermined threshold value; define a multidimensional vector for the topic; take as a topic topic the theme of that of its clusters, for which the measure of proximity of its multidimensional vector to a certain multidimensional vector of this topic is minimal.
Эту процедуру предпочтительно повторяют уже для топиков, т.е. находят меру взаимной близости многомерных векторов для каждой пары топиков; объединяют в соответствующий супертопик (сюжет) те топики, для которых найденные меры взаимной близости их многомерных векторов не превышают заранее заданный порог; определяют многомерный вектор для супертопика; принимают в качестве темы такого супертопика тему того из входящих в него топиков, для которого мера близости его многомерного вектора к определенному многомерному вектору этого супертопика минимальна.This procedure is preferably repeated already for topics, i.e. find a measure of the mutual proximity of multidimensional vectors for each pair of topics; combine those topics for which the found measures of mutual closeness of their multidimensional vectors do not exceed a predetermined threshold into the corresponding supertopic (plot); define a multidimensional vector for a supertop; they take as the topic of such a supertopic the topic of that of its topics, for which the measure of proximity of its multidimensional vector to a certain multidimensional vector of this supertopic is minimal.
Эту же процедуру можно повторять и для сюжетов, чтобы сформировать суперсюжеты, и т.д. К примеру, в случае определения тем для супертопиков в способе по настоящему изобретению строят граф, узлами которого являются супертопики, а каждое из ребер представляет собой отношение близости связываемых этим ребром супертопиков. После этого составляют глобальный словарь термов для обеспечения возможности последующего проведения поиска фрагментов построенного графа, релевантных конкретному поисковому документу.The same procedure can be repeated for plots in order to form superplots, etc. For example, in the case of determining topics for supertopics, a graph is constructed in the method of the present invention, the nodes of which are supertopics, and each of the edges represents the proximity ratio of the supertopics connected by this edge. After that, a global glossary is compiled to enable subsequent searches for fragments of the constructed graph that are relevant to a particular search document.
В качестве иллюстрации на Фиг.5 приведен скриншот графа, возвращаемого на запрос «марс условия для жизни» в системе, практически использующей данное изобретение. На этом изображении представлена часть описанной выше графовой структуры на уровне топиков, т.е. на уровне кластеров документов, между кластерами представлены связи-дуги (см. шаблон графа на Фиг.4). Система нашла, что вектор запроса «марс условия для жизни» при поиске на уровне топиков наиболее близок кластеру из 12 документов с заголовком, взятым из наиболее близкого к центроиду кластера документа «НАСА: На древнем Марсе были все условия для жизни».As an illustration, Figure 5 shows a screenshot of the graph returned to the query "Mars living conditions" in a system that practically uses this invention. This image shows part of the graph structure described above at the topic level, i.e. at the level of document clusters, between the clusters are represented arc-links (see the graph template in Figure 4). The system found that the query vector “Mars living conditions” when searching at the topic level is closest to a cluster of 12 documents with a heading taken from the closest to the centroid cluster of the document “NASA: There were all living conditions on ancient Mars”.
Для иллюстрации иерархических связей на Фиг.6 приведен пример отчета, по типам дорожно-транспортных происшествий (ДТП) за некоторый период времени. Здесь сущности высокого уровня иерархии содержат в себе объекты более низких уровней. На Фиг.6 схематически показаны отчеты по ДТП трех типов: грузовик и автобус (общий круг слева внизу), грузовик и автомобиль (общий круг наверху), автомобиль и автомобиль (общий круг справа внизу). Здесь круги наименьшего диаметра (и наиболее темные) представляют документы (новостные сообщения), в которых упоминается факт ДТП. Далее, по иерархии, сообщения об одном и том же событии объединены в кластеры-топики, топики объединены в супертопики, супертопики объединены по типу описываемых в них событий (автомобиль-автомобиль, грузовик-автомобиль). При этом круг наибольшего диаметра (и наиболее светлый) несет чисто эстетическую нагрузку.To illustrate the hierarchical relationships in Fig.6 shows an example report on the types of road traffic accidents (RTA) for a certain period of time. Here, entities of a high level in the hierarchy contain objects of lower levels. Figure 6 schematically shows the accident reports of three types: truck and bus (general circle at the bottom left), truck and car (general circle at the top), car and automobile (general circle at the bottom right). Here the circles of the smallest diameter (and the darkest) represent documents (news reports) in which the fact of an accident is mentioned. Further, according to the hierarchy, messages about the same event are combined into topic clusters, topics are combined into supertopics, supertopics are combined according to the type of events described in them (car-car, truck-car). Moreover, the circle of the largest diameter (and the lightest) carries a purely aesthetic load.
Для второго объекта настоящего изобретения - способа поиска в совокупности кластеризованных по семантической близости документов - сначала осуществляют кластеризацию электронных документов согласно способу по первому объекту настоящего изобретения с обязательным построением вышеупомянутого графа, а затем выполняют поиск релевантных поисковому запросу электронных документов как фрагментов построенного графа. Например, строится вектор запроса и на основании меры близости выполняется поиск самого близкого супертопика, затем топика, а далее - документа.For the second object of the present invention, the search method for documents collectively clustered by semantic proximity, electronic documents are first clustered according to the method according to the first object of the present invention with the mandatory construction of the aforementioned graph, and then the electronic documents relevant to the search query are searched as fragments of the constructed graph. For example, a query vector is constructed and, based on the proximity measure, the nearest super-peak is searched, then the topic, and then the document.
Специалистам понятно, что оба способа по настоящему изобретению выполняются в соответственно запрограммированной системе. Поэтому еще двумя объектами настоящего изобретения являются машиночитаемые носители, предназначенные каждый для непосредственного участия в работе вычислительного средства указанной системы и содержащие каждый программу, которая при ее исполнении в вычислительном средстве обеспечивает выполнение соответствующего способа. Такими машиночитаемыми носителями могут быть как жесткие диски, так и иные устройства, например флэш-память, диски DVD, магнитные ленты и т.д.Those skilled in the art will understand that both methods of the present invention are executed in a suitably programmed system. Therefore, another two objects of the present invention are computer-readable media, each intended for direct participation in the work of the computing means of the specified system and containing each program, which, when executed in the computing means, ensures the execution of the corresponding method. Such computer-readable media can be either hard drives or other devices, such as flash memory, DVDs, magnetic tapes, etc.
Таким образом, использование настоящего изобретения позволяет упростить и ускорить как кластеризацию электронных документов по семантической близости, так и последующий поиск в кластеризованной совокупности тех документов, которые релевантны поисковому запросу.Thus, the use of the present invention allows to simplify and accelerate both the clustering of electronic documents by semantic proximity, and the subsequent search in a clustered collection of those documents that are relevant to the search query.
Claims (12)
- преобразуют каждый подлежащий обработке электронный документ в соответствующий многомерный вектор в многомерном пространстве, размерности которого определяются содержащимися в упомянутом электронном документе термами;
- находят меру близости полученного многомерного вектора к каждому из многомерных векторов уже имеющихся кластеров, объединяющих семантически близкие электронные документы, обработанные ранее;
- дополняют упомянутым подлежащим обработке электронным документом тот из упомянутых кластеров, для которого найденная мера близости минимальна;
- определяют для упомянутого дополненного кластера его новый многомерный вектор;
- принимают в качестве темы упомянутого дополненного кластера название того из электронных документов в данном кластере, для которого мера близости его многомерного вектора к определенному новому многомерному вектору минимальна.1. The method of automatic iterative clustering of electronic documents by semantic proximity, which consists in the fact that:
- convert each electronic document to be processed into a corresponding multidimensional vector in a multidimensional space, the dimensions of which are determined by the terms contained in the said electronic document;
- find a measure of the proximity of the resulting multidimensional vector to each of the multidimensional vectors of existing clusters, combining semantically close electronic documents processed previously;
- supplement the said clusters for which the measure of proximity found is minimal;
- determine for the aforementioned augmented cluster its new multidimensional vector;
- take as the theme of the aforementioned augmented cluster the name of that of electronic documents in this cluster for which the measure of proximity of its multidimensional vector to a specific new multidimensional vector is minimal.
- накапливают совокупность подлежащих обработке электронных документов по мере их появления в течение заранее заданного интервала времени;
- после чего и осуществляют кластеризацию каждого из электронных документов в накопленной совокупности.2. The method according to claim 1, in which:
- accumulate a set of electronic documents to be processed as they appear during a predetermined time interval;
- after which they carry out clustering of each of the electronic documents in the accumulated totality.
- планаризируют текст упомянутого электронного документа;
- формируют массивы термов для планаризованного текста каждого из упомянутых электронных документов, для чего:
- токенизируют планаризованный текст, получая в результате сегменты в виде слов, знаков препинания, пробелов;
- стеммируют токенизированный текст, выделяя в результате основы слов с помощью, по меньшей мере, одного из эвристических алгоритмов; после чего:
- находят вес каждого терма в каждом из упомянутых электронных документов;
- выражают каждый из упомянутых электронных документов в виде вектора в многомерном пространстве, размерности которого определяются найденными весами термов в тексте данного электронного документа.3. The method according to claim 1, in which said conversion of an electronic document into a multidimensional vector includes the steps of:
- planarize the text of said electronic document;
- form arrays of terms for the planarized text of each of the above electronic documents, for which:
- tokenize the planarized text, resulting in segments in the form of words, punctuation, spaces;
- they stamp the tokenized text, highlighting as a result of the word base using at least one of the heuristic algorithms; then:
- find the weight of each term in each of the mentioned electronic documents;
- Express each of the mentioned electronic documents as a vector in a multidimensional space, the dimensions of which are determined by the found term weights in the text of this electronic document.
на величину
.4. The method according to claim 3, in which the aforementioned calculation of the weight of each term is performed using the measure TF-IDF, which is a product of the quantity
by the amount
.
- вычисляют косинусную меру близости между каждой парой упомянутых многомерных векторов;
- разбивают все упомянутые многомерные векторы на подмножества, в каждом из которых вычисленная косинусная мера близости между парой любых многомерных векторов меньше заранее заданного значения;
- рассчитывают вектор-центроид каждого из упомянутых подмножеств как среднеарифметическое всех многомерных векторов данного подмножества;
- приписывают каждый многомерный вектор к подмножеству с ближайшим вектором-центроидом.5. The method according to claim 1, in which said finding a measure of proximity of multidimensional vectors includes the steps in which:
- calculate the cosine measure of proximity between each pair of these multidimensional vectors;
- divide all the mentioned multidimensional vectors into subsets, in each of which the calculated cosine measure of proximity between a pair of any multidimensional vectors is less than a predetermined value;
- calculate the centroid vector of each of the mentioned subsets as the arithmetic mean of all multidimensional vectors of a given subset;
- they attribute each multidimensional vector to a subset with the nearest centroid vector.
- находят меру взаимной близости многомерных векторов для каждой пары упомянутых кластеров;
- объединяют в соответствующий топик те кластеры, для которых найденные меры взаимной близости их многомерных векторов не превышают заранее заданное пороговое значение;
- определяют для упомянутого топика его многомерный вектор;
- принимают в качестве темы упомянутого топика тему того из входящих в него кластеров, для которого мера близости его многомерного вектора к определенному многомерному вектору этого топика минимальна.6. The method according to claim 1, further comprising stages in which:
- find a measure of the mutual proximity of multidimensional vectors for each pair of the mentioned clusters;
- cluster those clusters for which the found measures of mutual closeness of their multidimensional vectors do not exceed a predetermined threshold value;
- determine for the mentioned topic its multidimensional vector;
- take as the topic of the mentioned topic the topic of one of the clusters included in it for which the measure of proximity of its multidimensional vector to a certain multidimensional vector of this topic is minimal.
- находят меру взаимной близости многомерных векторов для каждой пары упомянутых топиков;
- объединяют в соответствующий супертопик те топики, для которых найденные меры взаимной близости их многомерных векторов не превышают заранее заданный порог;
- определяют для упомянутого супертопика его многомерный вектор;
- принимают в качестве темы упомянутого супертопика тему того из входящих в него топиков, для которого мера близости его многомерного вектора к определенному многомерному вектору этого супертопика минимальна.7. The method according to claim 6, further comprising stages in which:
- find a measure of the mutual proximity of multidimensional vectors for each pair of the topics mentioned;
- combine those topics into the corresponding supertopic for which the found measures of mutual closeness of their multidimensional vectors do not exceed a predetermined threshold;
- determine for the said supertopic its multidimensional vector;
- they take as the theme of the mentioned super-topic the topic of that of its topics, for which the measure of proximity of its multidimensional vector to a certain multidimensional vector of this super-peak is minimal.
- осуществляют кластеризацию электронных документов согласно способу по п.9;
- выполняют поиск релевантных поисковому запросу электронных документов как фрагментов упомянутого графа.10. The search method in the aggregate of documents clustered by semantic proximity, which consists in the fact that:
- carry out the clustering of electronic documents according to the method according to claim 9;
- perform a search for relevant electronic search query electronic documents as fragments of the mentioned graph.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014105486/08A RU2556425C1 (en) | 2014-02-14 | 2014-02-14 | Method for automatic iterative clusterisation of electronic documents according to semantic similarity, method for search in plurality of documents clustered according to semantic similarity and computer-readable media |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014105486/08A RU2556425C1 (en) | 2014-02-14 | 2014-02-14 | Method for automatic iterative clusterisation of electronic documents according to semantic similarity, method for search in plurality of documents clustered according to semantic similarity and computer-readable media |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2556425C1 true RU2556425C1 (en) | 2015-07-10 |
Family
ID=53538814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014105486/08A RU2556425C1 (en) | 2014-02-14 | 2014-02-14 | Method for automatic iterative clusterisation of electronic documents according to semantic similarity, method for search in plurality of documents clustered according to semantic similarity and computer-readable media |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2556425C1 (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2720074C2 (en) * | 2017-12-29 | 2020-04-23 | Общество С Ограниченной Ответственностью "Яндекс" | Method and system for creating annotation vectors for document |
US11194878B2 (en) | 2018-12-13 | 2021-12-07 | Yandex Europe Ag | Method of and system for generating feature for ranking document |
RU2768209C1 (en) * | 2020-11-13 | 2022-03-23 | Общество с ограниченной ответственностью «Аби Продакшн» | Clustering of documents |
US11562292B2 (en) | 2018-12-29 | 2023-01-24 | Yandex Europe Ag | Method of and system for generating training set for machine learning algorithm (MLA) |
US11681713B2 (en) | 2018-06-21 | 2023-06-20 | Yandex Europe Ag | Method of and system for ranking search results using machine learning algorithm |
US11775746B2 (en) | 2019-08-29 | 2023-10-03 | Abbyy Development Inc. | Identification of table partitions in documents with neural networks using global document context |
US11861925B2 (en) | 2020-12-17 | 2024-01-02 | Abbyy Development Inc. | Methods and systems of field detection in a document |
US12118813B2 (en) | 2021-11-03 | 2024-10-15 | Abbyy Development Inc. | Continuous learning for document processing and analysis |
US12118816B2 (en) | 2021-11-03 | 2024-10-15 | Abbyy Development Inc. | Continuous learning for document processing and analysis |
RU2844055C1 (en) * | 2024-11-07 | 2025-07-24 | Общество ограниченной ответственностью "Лаборатория ИнфоВотч" | Method for streaming clustering of data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6871174B1 (en) * | 1997-03-07 | 2005-03-22 | Microsoft Corporation | System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match |
RU2268488C2 (en) * | 1999-07-20 | 2006-01-20 | Приментиа, Инк. | Method and system for data organization |
US8266077B2 (en) * | 2005-05-12 | 2012-09-11 | Xerox Corporation | Method of analyzing documents |
RU2487403C1 (en) * | 2011-11-30 | 2013-07-10 | Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук | Method of constructing semantic model of document |
-
2014
- 2014-02-14 RU RU2014105486/08A patent/RU2556425C1/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6871174B1 (en) * | 1997-03-07 | 2005-03-22 | Microsoft Corporation | System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match |
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
RU2268488C2 (en) * | 1999-07-20 | 2006-01-20 | Приментиа, Инк. | Method and system for data organization |
US8266077B2 (en) * | 2005-05-12 | 2012-09-11 | Xerox Corporation | Method of analyzing documents |
RU2487403C1 (en) * | 2011-11-30 | 2013-07-10 | Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук | Method of constructing semantic model of document |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2720074C2 (en) * | 2017-12-29 | 2020-04-23 | Общество С Ограниченной Ответственностью "Яндекс" | Method and system for creating annotation vectors for document |
US11681713B2 (en) | 2018-06-21 | 2023-06-20 | Yandex Europe Ag | Method of and system for ranking search results using machine learning algorithm |
US11194878B2 (en) | 2018-12-13 | 2021-12-07 | Yandex Europe Ag | Method of and system for generating feature for ranking document |
US11562292B2 (en) | 2018-12-29 | 2023-01-24 | Yandex Europe Ag | Method of and system for generating training set for machine learning algorithm (MLA) |
US11775746B2 (en) | 2019-08-29 | 2023-10-03 | Abbyy Development Inc. | Identification of table partitions in documents with neural networks using global document context |
RU2768209C1 (en) * | 2020-11-13 | 2022-03-23 | Общество с ограниченной ответственностью «Аби Продакшн» | Clustering of documents |
US12190622B2 (en) | 2020-11-13 | 2025-01-07 | Abbyy Development Inc. | Document clusterization |
US11861925B2 (en) | 2020-12-17 | 2024-01-02 | Abbyy Development Inc. | Methods and systems of field detection in a document |
US12118813B2 (en) | 2021-11-03 | 2024-10-15 | Abbyy Development Inc. | Continuous learning for document processing and analysis |
US12118816B2 (en) | 2021-11-03 | 2024-10-15 | Abbyy Development Inc. | Continuous learning for document processing and analysis |
RU2844055C1 (en) * | 2024-11-07 | 2025-07-24 | Общество ограниченной ответственностью "Лаборатория ИнфоВотч" | Method for streaming clustering of data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2556425C1 (en) | Method for automatic iterative clusterisation of electronic documents according to semantic similarity, method for search in plurality of documents clustered according to semantic similarity and computer-readable media | |
US10706103B2 (en) | System and method for hierarchical distributed processing of large bipartite graphs | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
Yin et al. | A text clustering algorithm using an online clustering scheme for initialization | |
CN111460798A (en) | Method and device for pushing similar meaning words, electronic equipment and medium | |
WO2017097231A1 (en) | Topic processing method and device | |
JP5115741B2 (en) | Retrieval method, similarity calculation method, similarity calculation and same document collation system, and program thereof | |
CN108763496B (en) | Dynamic and static data fusion customer classification method based on grids and density | |
JP7604767B2 (en) | Search method, device, electronic device, and storage medium | |
WO2018227930A1 (en) | Method and device for intelligently prompting answers | |
US20120239657A1 (en) | Category classification processing device and method | |
CN118211038A (en) | A multidimensional data processing and analysis method, device, system and storage medium | |
JP2016018286A (en) | Action type discrimination system, action type discrimination method, and action type discrimination program | |
CN119599130A (en) | Self-adaptive sensitive information intelligent identification method, device, equipment, storage medium and product | |
CN119739838A (en) | RAG intelligent question answering method, device, equipment and medium for multi-label generation and matching | |
Pilaluisa et al. | Contextual word embeddings for tabular data search and integration | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
Tsarev et al. | Supervised and unsupervised text classification via generic summarization | |
Moloshnikov et al. | An algorithm of finding thematically similar documents with creating context-semantic graph based on probabilistic-entropy approach | |
Fromm et al. | Diversity aware relevance learning for argument search | |
Tejasree et al. | RETRACTED: An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining | |
CN106339446A (en) | Dispersed key value index establishing method and system | |
KR102028487B1 (en) | Document topic modeling apparatus and method, storage media storing the same | |
Kokatnoor et al. | A Two-Stepped Feature Engineering Process for Topic Modeling Using Batchwise LDA with Stochastic Variational Inference Model. | |
CN115114425A (en) | Text pushing method and device, electronic equipment and computer readable storage medium |