[go: up one dir, main page]

RU2007141666A - Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников - Google Patents

Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников Download PDF

Info

Publication number
RU2007141666A
RU2007141666A RU2007141666/09A RU2007141666A RU2007141666A RU 2007141666 A RU2007141666 A RU 2007141666A RU 2007141666/09 A RU2007141666/09 A RU 2007141666/09A RU 2007141666 A RU2007141666 A RU 2007141666A RU 2007141666 A RU2007141666 A RU 2007141666A
Authority
RU
Russia
Prior art keywords
information
classes
processing
class
document
Prior art date
Application number
RU2007141666/09A
Other languages
English (en)
Inventor
Николай Игоревич Докучаев (RU)
Николай Игоревич Докучаев
Антон Валентинович Новиков (RU)
Антон Валентинович Новиков
Сергей Николаевич Ряжских (RU)
Сергей Николаевич Ряжских
Original Assignee
Николай Игоревич Докучаев (RU)
Николай Игоревич Докучаев
Антон Валентинович Новиков (RU)
Антон Валентинович Новиков
Сергей Николаевич Ряжских (RU)
Сергей Николаевич Ряжских
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Николай Игоревич Докучаев (RU), Николай Игоревич Докучаев, Антон Валентинович Новиков (RU), Антон Валентинович Новиков, Сергей Николаевич Ряжских (RU), Сергей Николаевич Ряжских filed Critical Николай Игоревич Докучаев (RU)
Priority to RU2007141666/09A priority Critical patent/RU2007141666A/ru
Publication of RU2007141666A publication Critical patent/RU2007141666A/ru

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального м

Claims (2)

1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального морфологического, синтаксического и семантического анализа, и на основе проведенной обработки этих документов определяют принадлежность информации, находящейся в этих электронных документах к той или иной заранее определенной теме, а на основе полученной при обработке электронных документов статистической информации создаются статистико-аналитические отчеты, отличающийся тем, что для определения принадлежности исследуемого электронного документа или только его части к определенным темам используется иерархически выстроенное дерево классов, где факт обнаружения класса нижнего уровня приводит к факту существования классов верхнего уровня над найденным классом, устанавливается очередность расчета классов, определяемая приоритетами, выбор и назначение которых зависит от используемых классами сущностей для описания темы, определяются пересечения классов, под которыми понимается одновременное нахождение двух или более базовых классов в одной лингвистической зоне, при расчетах каждому классу задается глубина вложенности, определяемая заданием родственных связей для каждого класса, словосочетаниям, определяющим классы, задаются весовые коэффициенты, устанавливаются зоны влияния для классов, определяются классы, которые могут быть использованы для определения нескольких тем, задаются словосочетания-киллеры, удаляющие из дальнейшей обработки зон влияния классов и соответственно расчета их площадей статистическую информацию о занимаемой словосочетаниями площади, входящих в тезаурус классов, для которых в настройках классов были заданы словосочетания-киллеры, задаются классы-киллеры, которые находясь в зоне влияния классов с приоритетом "0", "1" и "2", удаляют из дальнейшей обработки статистическую информацию о занимаемой данными классами площадях, на основании информации о занимаемых площадях, оставшихся после проверки классов, полученной при обработке документа, принимается решение по отнесению той или другой части обрабатываемого документа к той или иной теме и в каком объеме, для определения объема определяется итоговая площадь и/или относительная площадь, которую они занимают в обрабатываемом документе, при этом, если значение размера площади или процент размера относительной площади части документа превышает или равно значению размера площади, установленного для той или иной темы в их настройках, то тогда документ будет отнесен к той или иной теме, в противном случае считается, что в данном документе упоминание о теме встретилось случайно или слишком мало, и этот документ не будет отнесен к теме, также при расчете площади классов учитывается тот факт, каким набором символов представлен элемент, находящийся в зоне влияния класса, также при расчетах площадей, занимаемых словосочетаниями, определяемыми именем участника, или его торговыми марками, используется показатель «Индекс Бренд».
2. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников по п.1, отличающийся тем, что для определения заметности того или иного участника рынка (физического, юридического лица или торговых марок) по отношению к другим участникам рынка в информационных сетях и в печатных изданиях за определенные промежутки времени, используется показатель «Индекс Заметности», рассчитываемый по следующей формуле;
Figure 00000001
где i - порядковый номер участника рынка,
IFi - процент количества найденных материалов для i-го участника рынка за выбранный промежуток времени:
Figure 00000002
где Ni - количество материалов, в которых встречается i-й участник рынка, за выбранный промежуток времени,
Т - общее количество материалов, в которых встречается хотя бы один участник рынка;
Ari - процент суммы площадей отданных i-у участнику в публикациях отобранных за выбранный промежуток времени:
Figure 00000003
где Sk - площадь отданная i-у участнику рынка в k-й публикации,
Sj - площадь отданная всем встретившимся участникам рынка в j-й публикации;
NEi - процент количества изданий, в которых был найден i-й участник рынка за выбранный промежуток времени:
Figure 00000004
где ТТ - общее количество изданий, в которых встретился хотя бы один участник рынка,
LNi - количество изданий, в которых встретился i-й участник рынка за выбранный промежуток времени.
RU2007141666/09A 2007-11-13 2007-11-13 Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников RU2007141666A (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2007141666/09A RU2007141666A (ru) 2007-11-13 2007-11-13 Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2007141666/09A RU2007141666A (ru) 2007-11-13 2007-11-13 Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников

Publications (1)

Publication Number Publication Date
RU2007141666A true RU2007141666A (ru) 2009-05-20

Family

ID=41021336

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007141666/09A RU2007141666A (ru) 2007-11-13 2007-11-13 Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников

Country Status (1)

Country Link
RU (1) RU2007141666A (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
WO2013073999A2 (ru) 2011-11-18 2013-05-23 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного анализа текстовых документов
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
US8886676B2 (en) 2011-01-18 2014-11-11 Apple Inc. Reconstruction of lists in a document
WO2013073999A2 (ru) 2011-11-18 2013-05-23 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного анализа текстовых документов

Similar Documents

Publication Publication Date Title
CN110597988B (zh) 一种文本分类方法、装置、设备及存储介质
US7761447B2 (en) Systems and methods that rank search results
JP5731250B2 (ja) 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US9317559B1 (en) Sentiment detection as a ranking signal for reviewable entities
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
US8396867B2 (en) Identifying and ranking networked biographies and referral paths corresponding to selected qualifications
CN112035658B (zh) 基于深度学习的企业舆情监测方法
CN103984703B (zh) 邮件分类方法和装置
CN109145215A (zh) 网络舆情分析方法、装置及存储介质
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
Ozoh et al. Identification and classification of toxic comments on social media using machine learning techniques
CN107688630A (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN109446393B (zh) 一种网络社区话题分类方法及装置
RU2007141666A (ru) Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников
CN111488453B (zh) 资源分级方法、装置、设备及存储介质
CN115827989A (zh) 大数据环境下网络舆情人工智能预警系统及方法
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN115774778A (zh) 简历处理方法、装置、电子设备及可读存储介质
Jiang et al. PITT at TREC 2011 session track
CN115860283B (zh) 基于知识工作者画像的贡献度预测方法及装置
CN116796199A (zh) 一种基于人工智能的项目匹配分析系统及方法
CN112395498B (zh) 话题推荐方法、装置、电子设备及存储介质
CN109741190A (zh) 一种个股公告分类的方法、系统及设备
CN117077632A (zh) 一种用于资讯主题的自动生成方法

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20091130