[go: up one dir, main page]

CN111209723A - 一种解析Office二进制格式并提取文档属性文字的方法及系统 - Google Patents

一种解析Office二进制格式并提取文档属性文字的方法及系统 Download PDF

Info

Publication number
CN111209723A
CN111209723A CN202010031025.3A CN202010031025A CN111209723A CN 111209723 A CN111209723 A CN 111209723A CN 202010031025 A CN202010031025 A CN 202010031025A CN 111209723 A CN111209723 A CN 111209723A
Authority
CN
China
Prior art keywords
attribute
document
custom
data
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010031025.3A
Other languages
English (en)
Inventor
苗功勋
董盼山
崔新安
王金国
魏东晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD
Nanjing Zhongfu Information Technology Co Ltd
Zhongfu Information Co Ltd
Zhongfu Safety Technology Co Ltd
Original Assignee
BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD
Nanjing Zhongfu Information Technology Co Ltd
Zhongfu Information Co Ltd
Zhongfu Safety Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD, Nanjing Zhongfu Information Technology Co Ltd, Zhongfu Information Co Ltd, Zhongfu Safety Technology Co Ltd filed Critical BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202010031025.3A priority Critical patent/CN111209723A/zh
Publication of CN111209723A publication Critical patent/CN111209723A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种解析Office二进制格式并提取文档属性文字的方法及系统,本发明通过分析Office文档的二进制数据,根据文档中属性的存放原理,将Office文档中的属性文字全部提取出来,相对于使用二次接口开发和JAVA OPI技术接口提取文档属性中的文字,通过分析二进制文件并提取文件属性中文字可支持跨平台,不仅支持Windows系统而且支持Linux等系统,且效率高,通过二进制读取文件,并进行精确定位处理,执行效率显著提高,另外程序包小,所有实现均通过手动编码和调用系统API函数,不依赖任何第三方程序文件。本发明不限制于Office文件的文字提取,凡是采用Office存放原理的文件都可采用此方法提取文字,如金山Office等。

Description

一种解析Office二进制格式并提取文档属性文字的方法及 系统
技术领域
本发明涉及Office文字提取技术领域,特别是涉及一种解析Office二进制格式并提取文档属性文字的方法及系统。
背景技术
Office办公文档的属性信息记录了文档的汇总信息,如标题、作者、日期、关键词等,通过文档的属性就可以了解文档的内容,而不用打开文件去浏览,提高了文档的浏览分类速度。
现在通用的Office文档属性提取方法主要有两种,一种是采用Windows系统提供的Com接口,另一种就是采用JAVA提供的OPI技术进行提取,但是这两种技术存在以下缺点:
对于Com接口技术,不能跨平台,仅在Windows平台上运行,不支持Linux、Unix、Mac等系统;且效率低,采用Com技术,数据需要经过多层转换。
对于JAVA OPI技术,其提取文档中的文字,需要在运行环境中自带JAVA虚拟机环境,此方法导致程序安装包过大,且存在JAVA运行性能低的问题,导致提取文字效率低。
发明内容
本发明的目的是提供一种解析Office二进制格式并提取文档属性文字的方法及系统,旨在解决现有技术中文档属性提取存在效率低以及兼容性差的问题,提高兼容性和提取效率。
为达到上述技术目的,本发明提供了一种解析Office二进制格式并提取文档属性文字的方法,所述方法包括以下步骤:
S1、以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;
S2、在两种数据流中获取基本属性和自定义属性的分类信息;
S3、对于基本属性,读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;
S4、对于自定义属性,分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
优选地,所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示IdOffsetElement1有效,当为2时,IdOffsetElement1和IdOffsetElement2都有效。
优选地,所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示DocumentSummaryInformation有效,当为2时,DocumentSummaryInformation和UserDefinedProperties都有效。
优选地,所述属性类型propId为CODEPAGE时,其表示当前属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
本发明还提供了一种解析Office二进制格式并提取文档属性文字的系统,所述系统包括:
数据流获取模块,用于以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;
属性分类获取模块,用于在两种数据流中获取基本属性和自定义属性的分类信息;
基本属性提取模块,用于读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;
自定义属性提取模块,用于分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
优选地,所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1 IdOffsetElement1和属性分类2 IdOffsetElement2,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示IdOffsetElement1有效,当为2时,IdOffsetElement1和IdOffsetElement2都有效。
优选地,所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示DocumentSummaryInformation有效,当为2时,DocumentSummaryInformation和UserDefinedProperties都有效。
优选地,所述属性类型propId为CODEPAGE时,其表示当前属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过分析Office文档的二进制数据,根据文档中属性的存放原理,将Office文档中的属性文字全部提取出来,相对于使用二次接口开发和JAVAOPI技术接口提取文档属性中的文字,通过分析二进制文件并提取文件属性中文字可支持跨平台,不仅支持Windows系统而且支持Linux等系统,且效率高,通过二进制读取文件,并进行精确定位处理,执行效率显著提高,另外程序包小,所有实现均通过手动编码和调用系统API函数,不依赖任何第三方程序文件。本发明不限制于Office文件的文字提取,凡是采用Office存放原理的文件都可采用此方法提取文字,如金山Office等。
附图说明
图1为本发明实施例中所提供的一种解析Office二进制格式并提取文档属性文字的方法流程图;
图2为本发明实施例中所提供的一种解析Office二进制格式并提取文档属性文字的系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种解析Office二进制格式并提取文档属性文字的方法及系统进行详细说明。
如图1所示,本发明实施例公开了一种解析Office二进制格式并提取文档属性文字的方法,所述方法包括以下步骤:
S1、以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;
S2、在两种数据流中获取基本属性和自定义属性的分类信息;
S3、对于基本属性,读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;
S4、对于自定义属性,分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
本发明实施例通过分析Office文档的二进制数据,根据文档中属性的存放原理,将Office文档中的属性文字全部提取出来。
MS Office 2003以及更早版本都使用二进制文件格式作为其默认文件格式,底层数据存储方式为复合文档格式,本发明实施例是基于复合文档的分析基础上进行。MSOffice 2003文档的属性分为两部分,第一部分为基本属性,第二部分为自定义属性,自定义属性又分为文档属性和自定义属性。
基本属性是MS Office文档中最常用的一些属性信息,包括标题、主题、标记、类别、作者等,查看方法是在安装MS Office的系统上,右击doc文件选择属性中的详细信息。
构造\005SummaryInformation索引表,以二进制方式打开Office文档,枚举Office文档的所有数据流,获取所有的\005SummaryInformation数据流。
获取基本属性分类信息PropertySetStream,打开\005SummaryInformation中的数据流,读取68个字节的数据PropertySetStream,在PropertySetStream结构中,存储着含有默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示IdOffsetElement1有效,当为2时,IdOffsetElement1和IdOffsetElement2都有效,在IdOffsetElement中存储着属性起始地址cbSection和属性的个数cProps。
读取基本属性IdOffsetElement,通过IdOffsetElement读取每一个属性PropertyIdentifierAndOffset,属性PropertyIdentifierAndOffset中存储着当前属性类型propId和数据的起始地址propOffset,数据类型与属性对应的关系如表1:
表1
Figure BDA0002364296530000051
Figure BDA0002364296530000061
其中,CODEPAGE表示当前IdOffsetElement中所有的属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
通过属性类型propId和数据的起始地址propOffset结合当前的数据类型,即可读出一条属性信息,将所有的IdOffsetElement中的属性取出,即可将所有的基本属性IdOffsetElement取出。
对于自定义属性,其为MS Office文档中一些人工添加的属性信息,主要用来方便用户标记文档的特殊位置,名称和值可以根据需要随意添加,查看方法为在安装MS Office的系统中右击doc文件选择属性中的自定义。
自定义属性文字的提取与基本属性文字的提取方法相同,构造\005DocumentSummaryInformation索引表,以二进制方式打开Office文档,枚举Office文档的所有数据流,获取所有的\005DocumentSummaryInformation数据流。获取自定义属性分类信息PropertySetStream,打开\005DocumentSummaryInformation中的数据流,读取68个字节的数据PropertySetStream。其属性分类中含有自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties,NumPropertySets表示属性分类有效的数量,当为1时,表示DocumentSummaryInformation有效,当为2时,DocumentSummaryInformation和UserDefinedProperties都有效。在文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties中分别存储着属性起始地址cbSection和属性的个数cProps。对于文档属性DocumentSummaryInformation,读取每一个属性PropertyIdentifierAndOffset,属性PropertyIdentifierAndOffset中存储着当前属性类型propId和数据的起始地址propOffset,数据类型与属性对应的关系如表2:
表2
Figure BDA0002364296530000071
Figure BDA0002364296530000081
其中,CODEPAGE表示当前DocumentSummaryInformation中所有的属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
通过属性类型propId和数据的起始地址propOffset结合当前的数据类型,即可读出一条属性信息,将所有的DocumentSummaryInformation中的属性取出,即可将所有的基本属性DocumentSummaryInformation中所有的属性信息取出。
对于自定义属性UserDefinedProperties,读取每一个属性PropertyIdentifierAndOffset,属性PropertyIdentifierAndOffset中存储着当前属性类型propId和数据的起始地址propOffset,数据类型与属性对应的关系如表3:
表3
编号 名称 propId 数据类型
1 DICTIONARY_PROPERTY_IDENTIFIER 0 Dictionaryproperty
2 CODEPAGE_PROPERTY_IDENTIFIER 1 VT_I2
3 LOCALE_PROPERTY_IDENTIFIER 0x80000000 VT_I4
4 BEHAVIOR_PROPERTY_IDENTIFIER 0x80000003 VT_I4
5 OTHER 0x00000002-0x7FFFFFFF VT_I4
其中,CODEPAGE表示当前UserDefinedProperties中所有的属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
DICTIONARY中存储的是自定义属性的字段名称Key,BEHAVIOR和OTHER里存放的是自定义属性中的值Value,Key和Value是一一对应的,将所有的Key和Value取出,即把UserDefinedProperties中的属性信息取出。
本发明实施例通过分析Office文档的二进制数据,根据文档中属性的存放原理,将Office文档中的属性文字全部提取出来,相对于使用二次接口开发和JAVA OPI技术接口提取文档属性中的文字,通过分析二进制文件并提取文件属性中文字可支持跨平台,不仅支持Windows系统而且支持Linux等系统,且效率高,通过二进制读取文件,并进行精确定位处理,执行效率显著提高,另外程序包小,所有实现均通过手动编码和调用系统API函数,不依赖任何第三方程序文件。本发明不限制于Office文件的文字提取,凡是采用Office存放原理的文件都可采用此方法提取文字,如金山Office等。
如图2所示,本发明实施例还公开了一种解析Office二进制格式并提取文档属性文字的系统,所述系统包括:
数据流获取模块,用于以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;
属性分类获取模块,用于在两种数据流中获取基本属性和自定义属性的分类信息;
基本属性提取模块,用于读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;
自定义属性提取模块,用于分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流,在两种数据流中获取基本属性和自定义属性的分类信息。所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示IdOffsetElement1有效,当为2时,IdOffsetElement1和IdOffsetElement2都有效。所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示DocumentSummaryInformation有效,当为2时,DocumentSummaryInformation和UserDefinedProperties都有效。读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
当属性类型propId为CODEPAGE时,其表示当前属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述方法包括以下步骤:
S1、以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;
S2、在两种数据流中获取基本属性和自定义属性的分类信息;
S3、对于基本属性,读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;
S4、对于自定义属性,分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
2.根据权利要求1所述的一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示IdOffsetElement1有效,当为2时,IdOffsetElement1和IdOffsetElement2都有效。
3.根据权利要求1所述的一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示DocumentSummaryInformation有效,当为2时,DocumentSummaryInformation和UserDefinedProperties都有效。
4.根据权利要求1-3任意一项所述的一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述属性类型propId为CODEPAGE时,其表示当前属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
5.一种解析Office二进制格式并提取文档属性文字的系统,其特征在于,所述系统包括:
数据流获取模块,用于以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;
属性分类获取模块,用于在两种数据流中获取基本属性和自定义属性的分类信息;
基本属性提取模块,用于读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;
自定义属性提取模块,用于分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
6.根据权利要求5所述的一种解析Office二进制格式并提取文档属性文字的系统,其特征在于,所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示IdOffsetElement1有效,当为2时,IdOffsetElement1和IdOffsetElement2都有效。
7.根据权利要求5所述的一种解析Office二进制格式并提取文档属性文字的系统,其特征在于,所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示DocumentSummaryInformation有效,当为2时,DocumentSummaryInformation和UserDefinedProperties都有效。
8.根据权利要求5-7任意一项所述的一种解析Office二进制格式并提取文档属性文字的系统,其特征在于,所述属性类型propId为CODEPAGE时,其表示当前属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
CN202010031025.3A 2020-01-13 2020-01-13 一种解析Office二进制格式并提取文档属性文字的方法及系统 Pending CN111209723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010031025.3A CN111209723A (zh) 2020-01-13 2020-01-13 一种解析Office二进制格式并提取文档属性文字的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010031025.3A CN111209723A (zh) 2020-01-13 2020-01-13 一种解析Office二进制格式并提取文档属性文字的方法及系统

Publications (1)

Publication Number Publication Date
CN111209723A true CN111209723A (zh) 2020-05-29

Family

ID=70784340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010031025.3A Pending CN111209723A (zh) 2020-01-13 2020-01-13 一种解析Office二进制格式并提取文档属性文字的方法及系统

Country Status (1)

Country Link
CN (1) CN111209723A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101069428A (zh) * 2004-10-05 2007-11-07 维克多曼克斯公司 识别和处理数据流内数据的系统和方法
CN101243441A (zh) * 2005-06-21 2008-08-13 国际字符股份有限公司 用于处理字符流的方法与设备
US20100064369A1 (en) * 2006-09-18 2010-03-11 Stolfo Salvatore J Methods, media, and systems for detecting attack on a digital processing device
CN103092940A (zh) * 2013-01-10 2013-05-08 昆山百润科技有限公司 一种重构可验证的文档结构、数字签名方法和数字签名验证方法
US9391935B1 (en) * 2011-12-19 2016-07-12 Veritas Technologies Llc Techniques for file classification information retention
CN106875490A (zh) * 2017-01-18 2017-06-20 广州渲信息科技有限公司 一种基于ole技术的三维场景检测方法
CN108959200A (zh) * 2018-07-10 2018-12-07 山东中孚安全技术有限公司 一种提取ppt文档中的图片的方法及系统
CN109254868A (zh) * 2018-08-29 2019-01-22 新华三信息安全技术有限公司 一种文件检测方法及装置
CN109960608A (zh) * 2017-12-26 2019-07-02 北京安天网络安全技术有限公司 office文档的处理方法和处理系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101069428A (zh) * 2004-10-05 2007-11-07 维克多曼克斯公司 识别和处理数据流内数据的系统和方法
CN101243441A (zh) * 2005-06-21 2008-08-13 国际字符股份有限公司 用于处理字符流的方法与设备
US20100064369A1 (en) * 2006-09-18 2010-03-11 Stolfo Salvatore J Methods, media, and systems for detecting attack on a digital processing device
US9391935B1 (en) * 2011-12-19 2016-07-12 Veritas Technologies Llc Techniques for file classification information retention
CN103092940A (zh) * 2013-01-10 2013-05-08 昆山百润科技有限公司 一种重构可验证的文档结构、数字签名方法和数字签名验证方法
CN106875490A (zh) * 2017-01-18 2017-06-20 广州渲信息科技有限公司 一种基于ole技术的三维场景检测方法
CN109960608A (zh) * 2017-12-26 2019-07-02 北京安天网络安全技术有限公司 office文档的处理方法和处理系统
CN108959200A (zh) * 2018-07-10 2018-12-07 山东中孚安全技术有限公司 一种提取ppt文档中的图片的方法及系统
CN109254868A (zh) * 2018-08-29 2019-01-22 新华三信息安全技术有限公司 一种文件检测方法及装置

Similar Documents

Publication Publication Date Title
CN113032362B (zh) 数据血缘分析方法、装置、电子设备和存储介质
US8037075B2 (en) Pattern index
US7403940B2 (en) Optimal storage and retrieval of XML data
EP1367501B1 (en) Lexicon with sectionalized data and method of using the same
CN109388523B (zh) 一种基于二进制日志文件恢复MySQL数据库的方法
US8635634B2 (en) Seamless multiple format metadata abstraction
CN112307512A (zh) 一种日志脱敏方法、装置及存储介质
CN102662997A (zh) 一种存储xml数据到关系数据库的方法
CN104281601B (zh) 构建超大字库的方法及装置、字符显示方法及装置
US20080120351A1 (en) Efficient migration of binary XML across databases
US7231600B2 (en) File translation
CN115168397B (zh) 一种Clickhouse数据库虚拟列查询方法和装置
CN110569243B (zh) 一种数据查询方法、数据查询插件和数据查询服务器
CN101221582A (zh) 一种嵌入式系统数据库的实现方法
CN115544063A (zh) 动态sql语句优化方法、装置、存储介质、计算机设备
CN118821201A (zh) 半结构化数据和非结构化数据的数据库编辑
CN113438216B (zh) 一种基于安全标记的访问控制方法
CN111209723A (zh) 一种解析Office二进制格式并提取文档属性文字的方法及系统
CN113806297B (zh) 基于自定义字段的日志系统、日志存储方法和查询方法
CN111241787A (zh) 一种解析word二进制格式并提取文档中文字的方法及系统
CN113128240B (zh) 一种商户名称翻译的方法及设备
CN111241096A (zh) 一种excel文档的文本提取方法、系统、终端及存储介质
CN111353279A (zh) 字符编码的转换方法、装置和计算机存储介质
CN101021851A (zh) 文本检索装置、检索方法、记录文本检索程序的记录介质
CN115526168A (zh) 一种识别字体语种的方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200529