RU2007141666A

RU2007141666A - Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников

Info

Publication number: RU2007141666A
Application number: RU2007141666/09A
Authority: RU
Inventors: Николай Игоревич Докучаев (RU); Николай Игоревич Докучаев; Антон Валентинович Новиков (RU); Антон Валентинович Новиков; Сергей Николаевич Ряжских (RU); Сергей Николаевич Ряжских
Original assignee: Николай Игоревич Докучаев (RU); Николай Игоревич Докучаев; Антон Валентинович Новиков (RU); Антон Валентинович Новиков; Сергей Николаевич Ряжских (RU); Сергей Николаевич Ряжских
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2009-05-20

Abstract

1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального м

Claims

1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального морфологического, синтаксического и семантического анализа, и на основе проведенной обработки этих документов определяют принадлежность информации, находящейся в этих электронных документах к той или иной заранее определенной теме, а на основе полученной при обработке электронных документов статистической информации создаются статистико-аналитические отчеты, отличающийся тем, что для определения принадлежности исследуемого электронного документа или только его части к определенным темам используется иерархически выстроенное дерево классов, где факт обнаружения класса нижнего уровня приводит к факту существования классов верхнего уровня над найденным классом, устанавливается очередность расчета классов, определяемая приоритетами, выбор и назначение которых зависит от используемых классами сущностей для описания темы, определяются пересечения классов, под которыми понимается одновременное нахождение двух или более базовых классов в одной лингвистической зоне, при расчетах каждому классу задается глубина вложенности, определяемая заданием родственных связей для каждого класса, словосочетаниям, определяющим классы, задаются весовые коэффициенты, устанавливаются зоны влияния для классов, определяются классы, которые могут быть использованы для определения нескольких тем, задаются словосочетания-киллеры, удаляющие из дальнейшей обработки зон влияния классов и соответственно расчета их площадей статистическую информацию о занимаемой словосочетаниями площади, входящих в тезаурус классов, для которых в настройках классов были заданы словосочетания-киллеры, задаются классы-киллеры, которые находясь в зоне влияния классов с приоритетом "0", "1" и "2", удаляют из дальнейшей обработки статистическую информацию о занимаемой данными классами площадях, на основании информации о занимаемых площадях, оставшихся после проверки классов, полученной при обработке документа, принимается решение по отнесению той или другой части обрабатываемого документа к той или иной теме и в каком объеме, для определения объема определяется итоговая площадь и/или относительная площадь, которую они занимают в обрабатываемом документе, при этом, если значение размера площади или процент размера относительной площади части документа превышает или равно значению размера площади, установленного для той или иной темы в их настройках, то тогда документ будет отнесен к той или иной теме, в противном случае считается, что в данном документе упоминание о теме встретилось случайно или слишком мало, и этот документ не будет отнесен к теме, также при расчете площади классов учитывается тот факт, каким набором символов представлен элемент, находящийся в зоне влияния класса, также при расчетах площадей, занимаемых словосочетаниями, определяемыми именем участника, или его торговыми марками, используется показатель «Индекс Бренд».

2. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников по п.1, отличающийся тем, что для определения заметности того или иного участника рынка (физического, юридического лица или торговых марок) по отношению к другим участникам рынка в информационных сетях и в печатных изданиях за определенные промежутки времени, используется показатель «Индекс Заметности», рассчитываемый по следующей формуле;

где i - порядковый номер участника рынка,

IF_i - процент количества найденных материалов для i-го участника рынка за выбранный промежуток времени:

где N_i - количество материалов, в которых встречается i-й участник рынка, за выбранный промежуток времени,

Т - общее количество материалов, в которых встречается хотя бы один участник рынка;

Ar_i - процент суммы площадей отданных i-у участнику в публикациях отобранных за выбранный промежуток времени:

где S_k - площадь отданная i-у участнику рынка в k-й публикации,

S_j - площадь отданная всем встретившимся участникам рынка в j-й публикации;

NE_i - процент количества изданий, в которых был найден i-й участник рынка за выбранный промежуток времени:

где ТТ - общее количество изданий, в которых встретился хотя бы один участник рынка,

LN_i - количество изданий, в которых встретился i-й участник рынка за выбранный промежуток времени.