RU2007141666A - Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников - Google Patents
Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников Download PDFInfo
- Publication number
- RU2007141666A RU2007141666A RU2007141666/09A RU2007141666A RU2007141666A RU 2007141666 A RU2007141666 A RU 2007141666A RU 2007141666/09 A RU2007141666/09 A RU 2007141666/09A RU 2007141666 A RU2007141666 A RU 2007141666A RU 2007141666 A RU2007141666 A RU 2007141666A
- Authority
- RU
- Russia
- Prior art keywords
- information
- classes
- processing
- class
- document
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract 8
- 230000000877 morphologic effect Effects 0.000 claims abstract 3
- 238000010606 normalization Methods 0.000 claims abstract 2
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального м
Claims (2)
1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального морфологического, синтаксического и семантического анализа, и на основе проведенной обработки этих документов определяют принадлежность информации, находящейся в этих электронных документах к той или иной заранее определенной теме, а на основе полученной при обработке электронных документов статистической информации создаются статистико-аналитические отчеты, отличающийся тем, что для определения принадлежности исследуемого электронного документа или только его части к определенным темам используется иерархически выстроенное дерево классов, где факт обнаружения класса нижнего уровня приводит к факту существования классов верхнего уровня над найденным классом, устанавливается очередность расчета классов, определяемая приоритетами, выбор и назначение которых зависит от используемых классами сущностей для описания темы, определяются пересечения классов, под которыми понимается одновременное нахождение двух или более базовых классов в одной лингвистической зоне, при расчетах каждому классу задается глубина вложенности, определяемая заданием родственных связей для каждого класса, словосочетаниям, определяющим классы, задаются весовые коэффициенты, устанавливаются зоны влияния для классов, определяются классы, которые могут быть использованы для определения нескольких тем, задаются словосочетания-киллеры, удаляющие из дальнейшей обработки зон влияния классов и соответственно расчета их площадей статистическую информацию о занимаемой словосочетаниями площади, входящих в тезаурус классов, для которых в настройках классов были заданы словосочетания-киллеры, задаются классы-киллеры, которые находясь в зоне влияния классов с приоритетом "0", "1" и "2", удаляют из дальнейшей обработки статистическую информацию о занимаемой данными классами площадях, на основании информации о занимаемых площадях, оставшихся после проверки классов, полученной при обработке документа, принимается решение по отнесению той или другой части обрабатываемого документа к той или иной теме и в каком объеме, для определения объема определяется итоговая площадь и/или относительная площадь, которую они занимают в обрабатываемом документе, при этом, если значение размера площади или процент размера относительной площади части документа превышает или равно значению размера площади, установленного для той или иной темы в их настройках, то тогда документ будет отнесен к той или иной теме, в противном случае считается, что в данном документе упоминание о теме встретилось случайно или слишком мало, и этот документ не будет отнесен к теме, также при расчете площади классов учитывается тот факт, каким набором символов представлен элемент, находящийся в зоне влияния класса, также при расчетах площадей, занимаемых словосочетаниями, определяемыми именем участника, или его торговыми марками, используется показатель «Индекс Бренд».
2. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников по п.1, отличающийся тем, что для определения заметности того или иного участника рынка (физического, юридического лица или торговых марок) по отношению к другим участникам рынка в информационных сетях и в печатных изданиях за определенные промежутки времени, используется показатель «Индекс Заметности», рассчитываемый по следующей формуле;
где i - порядковый номер участника рынка,
IFi - процент количества найденных материалов для i-го участника рынка за выбранный промежуток времени:
где Ni - количество материалов, в которых встречается i-й участник рынка, за выбранный промежуток времени,
Т - общее количество материалов, в которых встречается хотя бы один участник рынка;
Ari - процент суммы площадей отданных i-у участнику в публикациях отобранных за выбранный промежуток времени:
где Sk - площадь отданная i-у участнику рынка в k-й публикации,
Sj - площадь отданная всем встретившимся участникам рынка в j-й публикации;
NEi - процент количества изданий, в которых был найден i-й участник рынка за выбранный промежуток времени:
где ТТ - общее количество изданий, в которых встретился хотя бы один участник рынка,
LNi - количество изданий, в которых встретился i-й участник рынка за выбранный промежуток времени.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2007141666/09A RU2007141666A (ru) | 2007-11-13 | 2007-11-13 | Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2007141666/09A RU2007141666A (ru) | 2007-11-13 | 2007-11-13 | Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2007141666A true RU2007141666A (ru) | 2009-05-20 |
Family
ID=41021336
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2007141666/09A RU2007141666A (ru) | 2007-11-13 | 2007-11-13 | Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников |
Country Status (1)
| Country | Link |
|---|---|
| RU (1) | RU2007141666A (ru) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8380753B2 (en) | 2011-01-18 | 2013-02-19 | Apple Inc. | Reconstruction of lists in a document |
| WO2013073999A2 (ru) | 2011-11-18 | 2013-05-23 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ автоматизированного анализа текстовых документов |
| US9959259B2 (en) | 2009-01-02 | 2018-05-01 | Apple Inc. | Identification of compound graphic elements in an unstructured document |
-
2007
- 2007-11-13 RU RU2007141666/09A patent/RU2007141666A/ru not_active Application Discontinuation
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9959259B2 (en) | 2009-01-02 | 2018-05-01 | Apple Inc. | Identification of compound graphic elements in an unstructured document |
| US8380753B2 (en) | 2011-01-18 | 2013-02-19 | Apple Inc. | Reconstruction of lists in a document |
| US8886676B2 (en) | 2011-01-18 | 2014-11-11 | Apple Inc. | Reconstruction of lists in a document |
| WO2013073999A2 (ru) | 2011-11-18 | 2013-05-23 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ автоматизированного анализа текстовых документов |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110597988B (zh) | 一种文本分类方法、装置、设备及存储介质 | |
| US7761447B2 (en) | Systems and methods that rank search results | |
| JP5731250B2 (ja) | 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法 | |
| CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
| US9317559B1 (en) | Sentiment detection as a ranking signal for reviewable entities | |
| WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
| US8396867B2 (en) | Identifying and ranking networked biographies and referral paths corresponding to selected qualifications | |
| CN112035658B (zh) | 基于深度学习的企业舆情监测方法 | |
| CN103984703B (zh) | 邮件分类方法和装置 | |
| CN109145215A (zh) | 网络舆情分析方法、装置及存储介质 | |
| CN111079029B (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
| Ozoh et al. | Identification and classification of toxic comments on social media using machine learning techniques | |
| CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
| CN109446393B (zh) | 一种网络社区话题分类方法及装置 | |
| RU2007141666A (ru) | Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников | |
| CN111488453B (zh) | 资源分级方法、装置、设备及存储介质 | |
| CN115827989A (zh) | 大数据环境下网络舆情人工智能预警系统及方法 | |
| CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
| CN115774778A (zh) | 简历处理方法、装置、电子设备及可读存储介质 | |
| Jiang et al. | PITT at TREC 2011 session track | |
| CN115860283B (zh) | 基于知识工作者画像的贡献度预测方法及装置 | |
| CN116796199A (zh) | 一种基于人工智能的项目匹配分析系统及方法 | |
| CN112395498B (zh) | 话题推荐方法、装置、电子设备及存储介质 | |
| CN109741190A (zh) | 一种个股公告分类的方法、系统及设备 | |
| CN117077632A (zh) | 一种用于资讯主题的自动生成方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20091130 |