CN111209723A

CN111209723A - 一种解析Office二进制格式并提取文档属性文字的方法及系统

Info

Publication number: CN111209723A
Application number: CN202010031025.3A
Authority: CN
Inventors: 苗功勋; 董盼山; 崔新安; 王金国; 魏东晓
Original assignee: BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD; Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd; Zhongfu Safety Technology Co Ltd
Current assignee: BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD; Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd; Zhongfu Safety Technology Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-05-29

Abstract

本发明提供了一种解析Office二进制格式并提取文档属性文字的方法及系统，本发明通过分析Office文档的二进制数据，根据文档中属性的存放原理，将Office文档中的属性文字全部提取出来，相对于使用二次接口开发和JAVA OPI技术接口提取文档属性中的文字，通过分析二进制文件并提取文件属性中文字可支持跨平台，不仅支持Windows系统而且支持Linux等系统，且效率高，通过二进制读取文件，并进行精确定位处理，执行效率显著提高，另外程序包小，所有实现均通过手动编码和调用系统API函数，不依赖任何第三方程序文件。本发明不限制于Office文件的文字提取，凡是采用Office存放原理的文件都可采用此方法提取文字，如金山Office等。

Description

一种解析Office二进制格式并提取文档属性文字的方法及系统

技术领域

本发明涉及Office文字提取技术领域，特别是涉及一种解析Office二进制格式并提取文档属性文字的方法及系统。

背景技术

Office办公文档的属性信息记录了文档的汇总信息，如标题、作者、日期、关键词等，通过文档的属性就可以了解文档的内容，而不用打开文件去浏览，提高了文档的浏览分类速度。

现在通用的Office文档属性提取方法主要有两种，一种是采用Windows系统提供的Com接口，另一种就是采用JAVA提供的OPI技术进行提取，但是这两种技术存在以下缺点：

对于Com接口技术，不能跨平台，仅在Windows平台上运行，不支持Linux、Unix、Mac等系统；且效率低，采用Com技术，数据需要经过多层转换。

对于JAVA OPI技术，其提取文档中的文字，需要在运行环境中自带JAVA虚拟机环境，此方法导致程序安装包过大，且存在JAVA运行性能低的问题，导致提取文字效率低。

发明内容

本发明的目的是提供一种解析Office二进制格式并提取文档属性文字的方法及系统，旨在解决现有技术中文档属性提取存在效率低以及兼容性差的问题，提高兼容性和提取效率。

为达到上述技术目的，本发明提供了一种解析Office二进制格式并提取文档属性文字的方法，所述方法包括以下步骤：

S1、以二进制方式打开Office文档，获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流；

S2、在两种数据流中获取基本属性和自定义属性的分类信息；

S3、对于基本属性，读取基本属性中属性类型propId和数据的起始地址propOffset，结合每条属性信息中数据类型，取出属性信息；

S4、对于自定义属性，分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset，结合每条属性信息中数据类型，取出文档属性和自定义属性信息。

优选地，所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示IdOffsetElement1有效，当为2时，IdOffsetElement1和IdOffsetElement2都有效。

优选地，所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示DocumentSummaryInformation有效，当为2时，DocumentSummaryInformation和UserDefinedProperties都有效。

优选地，所述属性类型propId为CODEPAGE时，其表示当前属性数据采用的字符编码格式，当值为0x04B0时，表示UNICODE方式，当值为-535时表示为UTF-8，其他表示ANSI。

本发明还提供了一种解析Office二进制格式并提取文档属性文字的系统，所述系统包括：

数据流获取模块，用于以二进制方式打开Office文档，获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流；

属性分类获取模块，用于在两种数据流中获取基本属性和自定义属性的分类信息；

基本属性提取模块，用于读取基本属性中属性类型propId和数据的起始地址propOffset，结合每条属性信息中数据类型，取出属性信息；

自定义属性提取模块，用于分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset，结合每条属性信息中数据类型，取出文档属性和自定义属性信息。

优选地，所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1 IdOffsetElement1和属性分类2 IdOffsetElement2，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示IdOffsetElement1有效，当为2时，IdOffsetElement1和IdOffsetElement2都有效。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明通过分析Office文档的二进制数据，根据文档中属性的存放原理，将Office文档中的属性文字全部提取出来，相对于使用二次接口开发和JAVAOPI技术接口提取文档属性中的文字，通过分析二进制文件并提取文件属性中文字可支持跨平台，不仅支持Windows系统而且支持Linux等系统，且效率高，通过二进制读取文件，并进行精确定位处理，执行效率显著提高，另外程序包小，所有实现均通过手动编码和调用系统API函数，不依赖任何第三方程序文件。本发明不限制于Office文件的文字提取，凡是采用Office存放原理的文件都可采用此方法提取文字，如金山Office等。

附图说明

图1为本发明实施例中所提供的一种解析Office二进制格式并提取文档属性文字的方法流程图；

图2为本发明实施例中所提供的一种解析Office二进制格式并提取文档属性文字的系统框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种解析Office二进制格式并提取文档属性文字的方法及系统进行详细说明。

如图1所示，本发明实施例公开了一种解析Office二进制格式并提取文档属性文字的方法，所述方法包括以下步骤：

本发明实施例通过分析Office文档的二进制数据，根据文档中属性的存放原理，将Office文档中的属性文字全部提取出来。

MS Office 2003以及更早版本都使用二进制文件格式作为其默认文件格式，底层数据存储方式为复合文档格式，本发明实施例是基于复合文档的分析基础上进行。MSOffice 2003文档的属性分为两部分，第一部分为基本属性，第二部分为自定义属性，自定义属性又分为文档属性和自定义属性。

基本属性是MS Office文档中最常用的一些属性信息，包括标题、主题、标记、类别、作者等，查看方法是在安装MS Office的系统上，右击doc文件选择属性中的详细信息。

构造\005SummaryInformation索引表，以二进制方式打开Office文档，枚举Office文档的所有数据流，获取所有的\005SummaryInformation数据流。

获取基本属性分类信息PropertySetStream，打开\005SummaryInformation中的数据流，读取68个字节的数据PropertySetStream，在PropertySetStream结构中，存储着含有默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示IdOffsetElement1有效，当为2时，IdOffsetElement1和IdOffsetElement2都有效，在IdOffsetElement中存储着属性起始地址cbSection和属性的个数cProps。

读取基本属性IdOffsetElement，通过IdOffsetElement读取每一个属性PropertyIdentifierAndOffset，属性PropertyIdentifierAndOffset中存储着当前属性类型propId和数据的起始地址propOffset，数据类型与属性对应的关系如表1：

表1

其中，CODEPAGE表示当前IdOffsetElement中所有的属性数据采用的字符编码格式，当值为0x04B0时，表示UNICODE方式，当值为-535时表示为UTF-8，其他表示ANSI。

通过属性类型propId和数据的起始地址propOffset结合当前的数据类型，即可读出一条属性信息，将所有的IdOffsetElement中的属性取出，即可将所有的基本属性IdOffsetElement取出。

对于自定义属性，其为MS Office文档中一些人工添加的属性信息，主要用来方便用户标记文档的特殊位置，名称和值可以根据需要随意添加，查看方法为在安装MS Office的系统中右击doc文件选择属性中的自定义。

自定义属性文字的提取与基本属性文字的提取方法相同，构造\005DocumentSummaryInformation索引表，以二进制方式打开Office文档，枚举Office文档的所有数据流，获取所有的\005DocumentSummaryInformation数据流。获取自定义属性分类信息PropertySetStream，打开\005DocumentSummaryInformation中的数据流，读取68个字节的数据PropertySetStream。其属性分类中含有自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties，NumPropertySets表示属性分类有效的数量，当为1时，表示DocumentSummaryInformation有效，当为2时，DocumentSummaryInformation和UserDefinedProperties都有效。在文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties中分别存储着属性起始地址cbSection和属性的个数cProps。对于文档属性DocumentSummaryInformation，读取每一个属性PropertyIdentifierAndOffset，属性PropertyIdentifierAndOffset中存储着当前属性类型propId和数据的起始地址propOffset，数据类型与属性对应的关系如表2：

表2

其中，CODEPAGE表示当前DocumentSummaryInformation中所有的属性数据采用的字符编码格式，当值为0x04B0时，表示UNICODE方式，当值为-535时表示为UTF-8，其他表示ANSI。

通过属性类型propId和数据的起始地址propOffset结合当前的数据类型，即可读出一条属性信息，将所有的DocumentSummaryInformation中的属性取出，即可将所有的基本属性DocumentSummaryInformation中所有的属性信息取出。

对于自定义属性UserDefinedProperties，读取每一个属性PropertyIdentifierAndOffset，属性PropertyIdentifierAndOffset中存储着当前属性类型propId和数据的起始地址propOffset，数据类型与属性对应的关系如表3：

表3

编号	名称	propId	数据类型
				1	DICTIONARY_PROPERTY_IDENTIFIER	0	Dictionaryproperty
2	CODEPAGE_PROPERTY_IDENTIFIER	1	VT_I2
				3	LOCALE_PROPERTY_IDENTIFIER	0x80000000	VT_I4
4	BEHAVIOR_PROPERTY_IDENTIFIER	0x80000003	VT_I4
				5	OTHER	0x00000002-0x7FFFFFFF	VT_I4

其中，CODEPAGE表示当前UserDefinedProperties中所有的属性数据采用的字符编码格式，当值为0x04B0时，表示UNICODE方式，当值为-535时表示为UTF-8，其他表示ANSI。

DICTIONARY中存储的是自定义属性的字段名称Key，BEHAVIOR和OTHER里存放的是自定义属性中的值Value，Key和Value是一一对应的，将所有的Key和Value取出，即把UserDefinedProperties中的属性信息取出。

本发明实施例通过分析Office文档的二进制数据，根据文档中属性的存放原理，将Office文档中的属性文字全部提取出来，相对于使用二次接口开发和JAVA OPI技术接口提取文档属性中的文字，通过分析二进制文件并提取文件属性中文字可支持跨平台，不仅支持Windows系统而且支持Linux等系统，且效率高，通过二进制读取文件，并进行精确定位处理，执行效率显著提高，另外程序包小，所有实现均通过手动编码和调用系统API函数，不依赖任何第三方程序文件。本发明不限制于Office文件的文字提取，凡是采用Office存放原理的文件都可采用此方法提取文字，如金山Office等。

如图2所示，本发明实施例还公开了一种解析Office二进制格式并提取文档属性文字的系统，所述系统包括：

以二进制方式打开Office文档，获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流，在两种数据流中获取基本属性和自定义属性的分类信息。所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示IdOffsetElement1有效，当为2时，IdOffsetElement1和IdOffsetElement2都有效。所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示DocumentSummaryInformation有效，当为2时，DocumentSummaryInformation和UserDefinedProperties都有效。读取基本属性中属性类型propId和数据的起始地址propOffset，结合每条属性信息中数据类型，取出属性信息；分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset，结合每条属性信息中数据类型，取出文档属性和自定义属性信息。

当属性类型propId为CODEPAGE时，其表示当前属性数据采用的字符编码格式，当值为0x04B0时，表示UNICODE方式，当值为-535时表示为UTF-8，其他表示ANSI。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种解析Office二进制格式并提取文档属性文字的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种解析Office二进制格式并提取文档属性文字的方法，其特征在于，所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示IdOffsetElement1有效，当为2时，IdOffsetElement1和IdOffsetElement2都有效。

3.根据权利要求1所述的一种解析Office二进制格式并提取文档属性文字的方法，其特征在于，所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示DocumentSummaryInformation有效，当为2时，DocumentSummaryInformation和UserDefinedProperties都有效。

4.根据权利要求1-3任意一项所述的一种解析Office二进制格式并提取文档属性文字的方法，其特征在于，所述属性类型propId为CODEPAGE时，其表示当前属性数据采用的字符编码格式，当值为0x04B0时，表示UNICODE方式，当值为-535时表示为UTF-8，其他表示ANSI。

5.一种解析Office二进制格式并提取文档属性文字的系统，其特征在于，所述系统包括：

6.根据权利要求5所述的一种解析Office二进制格式并提取文档属性文字的系统，其特征在于，所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示IdOffsetElement1有效，当为2时，IdOffsetElement1和IdOffsetElement2都有效。

7.根据权利要求5所述的一种解析Office二进制格式并提取文档属性文字的系统，其特征在于，所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties，其中属性分类个数NumPropertySets表示属性分类有效的数量，当为1时，表示DocumentSummaryInformation有效，当为2时，DocumentSummaryInformation和UserDefinedProperties都有效。

8.根据权利要求5-7任意一项所述的一种解析Office二进制格式并提取文档属性文字的系统，其特征在于，所述属性类型propId为CODEPAGE时，其表示当前属性数据采用的字符编码格式，当值为0x04B0时，表示UNICODE方式，当值为-535时表示为UTF-8，其他表示ANSI。