RU2015110973A - Способ и устройство для идентификации кодирования веб-страницы - Google Patents
Способ и устройство для идентификации кодирования веб-страницы Download PDFInfo
- Publication number
- RU2015110973A RU2015110973A RU2015110973A RU2015110973A RU2015110973A RU 2015110973 A RU2015110973 A RU 2015110973A RU 2015110973 A RU2015110973 A RU 2015110973A RU 2015110973 A RU2015110973 A RU 2015110973A RU 2015110973 A RU2015110973 A RU 2015110973A
- Authority
- RU
- Russia
- Prior art keywords
- resource
- encoding mode
- encoding
- mode
- web page
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Digital Computer Display Output (AREA)
- Document Processing Apparatus (AREA)
Abstract
1. Способ идентификации кодирования веб-страницы, отличающийся тем, что способ содержит этапы, на которых:загружают данные веб-страницы, содержащие по меньшей мере один ресурс веб-страницы;обнаруживают, является ли этот ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;если данный ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицируют режим кодирования HTML-ресурса; идекодируют HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.2. Способ по п. 1, отличающийся тем, что дополнительно содержит этапы, на которых:если упомянутый ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, определяют, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования; иесли указанный режим кодирования не является одним из предварительно заданных режимов кодирования, идентифицируют режим кодирования HTML-ресурса; или выполняют автоматическую корректировку в отношении указанного режима кодирования, чтобы получать режим кодирования после автоматической корректировки.3. Способ по п. 1 или 2, отличающийся тем, что при идентификации режима кодирования HTML-ресурса режим кодирования HTML-ресурса идентифицируют посредством вызова предварительно заданного алгоритма идентификации кодирования символов.4. Способ по п. 2, отличающийся тем, что выполнение автоматической корректировки в отношении указанного режима кодирования для получения режима кодирования после автоматической корректировки содержит этапы, на которых:вычисляют орфографическое сходство между указанным режимом кодирования и каждым из
Claims (11)
1. Способ идентификации кодирования веб-страницы, отличающийся тем, что способ содержит этапы, на которых:
загружают данные веб-страницы, содержащие по меньшей мере один ресурс веб-страницы;
обнаруживают, является ли этот ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
если данный ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицируют режим кодирования HTML-ресурса; и
декодируют HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
2. Способ по п. 1, отличающийся тем, что дополнительно содержит этапы, на которых:
если упомянутый ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, определяют, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования; и
если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, идентифицируют режим кодирования HTML-ресурса; или выполняют автоматическую корректировку в отношении указанного режима кодирования, чтобы получать режим кодирования после автоматической корректировки.
3. Способ по п. 1 или 2, отличающийся тем, что при идентификации режима кодирования HTML-ресурса режим кодирования HTML-ресурса идентифицируют посредством вызова предварительно заданного алгоритма идентификации кодирования символов.
4. Способ по п. 2, отличающийся тем, что выполнение автоматической корректировки в отношении указанного режима кодирования для получения режима кодирования после автоматической корректировки содержит этапы, на которых:
вычисляют орфографическое сходство между указанным режимом кодирования и каждым из упомянутых предварительно заданных режимов кодирования, соответственно; и
если максимальное орфографическое сходство больше предварительно заданного порогового значения, определяют предварительно заданный режим кодирования, соответствующий максимальному орфографическому сходству, в качестве режима кодирования после автоматической корректировки.
5. Способ по п. 1, отличающийся тем, что дополнительно содержит этапы, на которых:
если упомянутый веб-ресурс является CSS-ресурсом, идентифицируют режим кодирования, принятый HTML-ресурсом, в данных веб-страницы в качестве режима кодирования CSS-ресурса и декодируют CSS-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
6. Устройство для идентификации кодирования веб-страницы, отличающееся тем, что содержит:
модуль загрузки данных, сконфигурированный загружать данные веб-страницы, содержащие по меньшей мере один ресурс веб-страницы;
модуль обнаружения режима, сконфигурированный обнаруживать, является ли этот ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования;
модуль идентификации режима, сконфигурированный, если данный ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса, и
модуль декодирования ресурса, сконфигурированный декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
7. Устройство по п. 6, отличающееся тем, что дополнительно содержит:
модуль обнаружения кодирования, сконфигурированный, если упомянутый ресурс веб-страницы является HTML-ресурсом и он указывает режим кодирования, обнаруживать, является ли указанный режим кодирования одним из предварительно заданных режимов кодирования;
при этом модуль идентификации режима сконфигурирован, если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, идентифицировать режим кодирования HTML-ресурса; или
модуль автоматической корректировки, сконфигурированный, если указанный режим кодирования не является одним из предварительно заданных режимов кодирования, выполнять автоматическую корректировку в отношении указанного режима кодирования, чтобы получать режим кодирования после автоматической корректировки.
8. Устройство по п. 6 или 7, отличающееся тем, что
модуль идентификации режима сконфигурирован с возможностью идентифицировать режим кодирования HTML-ресурса посредством вызова предварительно заданного алгоритма идентификации кодирования символов.
9. Устройство по п. 7, отличающееся тем, что модуль автоматической корректировки содержит:
субмодуль орфографического вычисления, сконфигурированный вычислять орфографическое сходство между указанным режимом кодирования и каждым из упомянутых предварительно заданных режимов кодирования соответственно; и
субмодуль автоматической корректировки, сконфигурированный, если максимальное орфографическое сходство больше предварительно заданного порогового значения, определять предварительно заданный режим кодирования, соответствующий максимальному орфографическому сходству, как режим кодирования после автоматической корректировки.
10. Устройство по п. 6, отличающееся тем, что дополнительно содержит:
модуль повторного использования кодирования, сконфигурированный, если упомянутый веб-ресурс является CSS-ресурсом, идентифицировать режим кодирования HTML-ресурса в данных веб-страницы в качестве режима кодирования CSS-ресурса и декодировать CSS-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
11. Устройство для идентификации кодирования веб-страницы, отличающееся тем, что содержит:
процессор; и
память для хранения инструкций, исполняемых процессором,
при этом процессор сконфигурирован:
загружать данные веб-страницы, содержащие по меньшей мере один ресурс веб-страницы,
обнаруживать, является ли этот ресурс веб-страницы HTML-ресурсом и указывает ли он режим кодирования,
если данный ресурс веб-страницы является HTML-ресурсом и он не указывает режим кодирования, идентифицировать режим кодирования HTML-ресурса, и
декодировать HTML-ресурс с помощью режима декодирования, соответствующего идентифицированному режиму кодирования.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410562477.9A CN104361021B (zh) | 2014-10-21 | 2014-10-21 | 网页编码识别方法及装置 |
| CN201410562477.9 | 2014-10-21 | ||
| PCT/CN2015/071308 WO2016061930A1 (zh) | 2014-10-21 | 2015-01-22 | 网页编码识别方法及装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2015110973A true RU2015110973A (ru) | 2016-10-20 |
| RU2610245C2 RU2610245C2 (ru) | 2017-02-08 |
Family
ID=52528283
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2015110973A RU2610245C2 (ru) | 2014-10-21 | 2015-01-22 | Способ и устройство для идентификации кодирования веб-страницы |
Country Status (8)
| Country | Link |
|---|---|
| EP (1) | EP3012750A1 (ru) |
| JP (1) | JP6130976B2 (ru) |
| KR (1) | KR20160059455A (ru) |
| CN (1) | CN104361021B (ru) |
| BR (1) | BR112015006725A2 (ru) |
| MX (1) | MX361564B (ru) |
| RU (1) | RU2610245C2 (ru) |
| WO (1) | WO2016061930A1 (ru) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104994128B (zh) * | 2015-05-15 | 2019-04-26 | 北京网康科技有限公司 | 一种数据编码类型识别及转码方法和装置 |
| CN105468753A (zh) * | 2015-11-27 | 2016-04-06 | 北京金和网络股份有限公司 | 多编码格式数据显示系统及方法 |
| CN106407438A (zh) * | 2016-09-28 | 2017-02-15 | 珠海迈越信息技术有限公司 | 一种数据处理方法及系统 |
| CN110020343B (zh) * | 2017-09-01 | 2021-03-30 | 北京国双科技有限公司 | 网页编码格式的确定方法和装置 |
| CN110674377A (zh) * | 2019-09-24 | 2020-01-10 | 四川长虹电器股份有限公司 | 基于爬虫的新闻热点词获取方法 |
| CN114024651A (zh) * | 2020-07-16 | 2022-02-08 | 深信服科技股份有限公司 | 一种编码类型识别方法、装置、设备及可读存储介质 |
| CN114415817B (zh) * | 2020-10-28 | 2024-05-07 | 北京小米移动软件有限公司 | 显示控制方法、电子设备及存储介质 |
| CN113595683A (zh) * | 2021-07-07 | 2021-11-02 | 西安震有信通科技有限公司 | 基于各类编码文件的转换处理方法、装置、终端及介质 |
| CN119299443B (zh) * | 2024-09-02 | 2025-10-10 | 北京百度网讯科技有限公司 | 一种实例监控方法、装置、电子设备及存储介质 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3203544B2 (ja) * | 1996-01-31 | 2001-08-27 | 日本電信電話株式会社 | テキスト最尤復号方法及び最尤復号装置と、データ通信ネットワーク装置 |
| JP2000132449A (ja) * | 1998-10-27 | 2000-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 代理アクセス方法、装置、および代理アクセスプログラムを記録した記録媒体 |
| US6701320B1 (en) * | 2002-04-24 | 2004-03-02 | Bmc Software, Inc. | System and method for determining a character encoding scheme |
| US7148824B1 (en) * | 2005-08-05 | 2006-12-12 | Xerox Corporation | Automatic detection of character encoding format using statistical analysis of the text strings |
| US7711673B1 (en) * | 2005-09-28 | 2010-05-04 | Trend Micro Incorporated | Automatic charset detection using SIM algorithm with charset grouping |
| CN101526963A (zh) * | 2009-04-17 | 2009-09-09 | 深圳华为通信技术有限公司 | 网页编码识别方法、装置和终端设备 |
| JP5565197B2 (ja) * | 2010-08-18 | 2014-08-06 | 富士通株式会社 | Webアプリケーションの連携方法、連携装置、および連携プログラム |
| RU2500024C2 (ru) * | 2011-12-27 | 2013-11-27 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ автоматизированного определения языка и (или) кодировки текстового документа |
| CN103207877B (zh) * | 2012-01-17 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 解码方法及装置 |
| US8938683B2 (en) * | 2012-09-11 | 2015-01-20 | Ebay Inc. | Visual state comparator |
| TWI493365B (zh) * | 2013-08-16 | 2015-07-21 | Arphic Technology Co Ltd | 多字集字碼輸入與即時顯示方法、系統與裝置 |
-
2014
- 2014-10-21 CN CN201410562477.9A patent/CN104361021B/zh active Active
-
2015
- 2015-01-22 RU RU2015110973A patent/RU2610245C2/ru active
- 2015-01-22 JP JP2016554794A patent/JP6130976B2/ja active Active
- 2015-01-22 KR KR1020157007129A patent/KR20160059455A/ko not_active Ceased
- 2015-01-22 BR BR112015006725A patent/BR112015006725A2/pt not_active IP Right Cessation
- 2015-01-22 MX MX2015003807A patent/MX361564B/es active IP Right Grant
- 2015-01-22 WO PCT/CN2015/071308 patent/WO2016061930A1/zh not_active Ceased
- 2015-07-27 EP EP15178533.4A patent/EP3012750A1/en not_active Withdrawn
Also Published As
| Publication number | Publication date |
|---|---|
| MX361564B (es) | 2018-12-11 |
| EP3012750A1 (en) | 2016-04-27 |
| KR20160059455A (ko) | 2016-05-26 |
| CN104361021A (zh) | 2015-02-18 |
| WO2016061930A1 (zh) | 2016-04-28 |
| MX2015003807A (es) | 2016-08-02 |
| JP2016539450A (ja) | 2016-12-15 |
| JP6130976B2 (ja) | 2017-05-17 |
| BR112015006725A2 (pt) | 2017-07-04 |
| CN104361021B (zh) | 2018-07-24 |
| RU2610245C2 (ru) | 2017-02-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2015110973A (ru) | Способ и устройство для идентификации кодирования веб-страницы | |
| RU2018101252A (ru) | Устройство декодирования и способ декодирования | |
| RU2018111944A (ru) | Способ кодирования изображения, способ декодирования изображения, компонент кодирования изображения, компонент декодирования изображения и компонент кодирования/декодирования изображения | |
| JP2016534660A5 (ru) | ||
| RU2019132422A (ru) | Выбор процедуры маскирования потери пакета | |
| JP2015516766A5 (ru) | ||
| RU2016113843A (ru) | Способ, устройство и система для кодирования и декодирования видеоданных | |
| MX2023010008A (es) | Metodo y aparato de codificacion de datos de imagen y metodo y aparato de decodificacion de datos de imagen. | |
| RU2019112504A (ru) | Устройство кодирования и способ кодирования, устройство декодирования и способ декодирования, и программа | |
| BR112019003706A8 (pt) | Método para processamento de dados e aparelho para processamento de dados | |
| RU2018121256A (ru) | Способ и устройство для адаптации видеоконтента, декодированного из элементарных потоков, под характеристики устройства отображения | |
| JP2017525227A5 (ru) | ||
| JP2016503996A5 (ru) | ||
| JP2017507537A5 (ru) | ||
| PH12019550190A1 (en) | Machine learned decision guidance for alerts originating from monitoring systems | |
| JP2016528796A5 (ru) | ||
| JP2016103804A5 (ru) | ||
| RU2016133158A (ru) | Способ и оборудование для управления электронным устройством | |
| RU2018135681A (ru) | Способ и устройство для обнаружения голосовой активности | |
| RU2016106637A (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
| RU2016118603A (ru) | Управление данными носимых устройств во время происшествия | |
| RU2010148319A (ru) | Способ и система для межчастотного или межсистемного перевыбора соты | |
| RU2016129532A (ru) | Способ реагирования на обнаружение падения и устройство для его реализации | |
| RU2016145610A (ru) | Способ и устройство для кодирования и декодирования видеоинформации с использованием кодирования с палитрой | |
| RU2014123342A (ru) | Способ кодирования и декодирования изображений, устройство кодирования и декодирования и соответсвующие компьютерные программы |