CN103229167A - 用于为电子发现数据编索引的系统和方法 - Google Patents
用于为电子发现数据编索引的系统和方法 Download PDFInfo
- Publication number
- CN103229167A CN103229167A CN2011800568870A CN201180056887A CN103229167A CN 103229167 A CN103229167 A CN 103229167A CN 2011800568870 A CN2011800568870 A CN 2011800568870A CN 201180056887 A CN201180056887 A CN 201180056887A CN 103229167 A CN103229167 A CN 103229167A
- Authority
- CN
- China
- Prior art keywords
- document
- data
- file
- computer system
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
描述用于高效处理电子存储信息(ESI)的系统和方法。系统和方法描述在准备诉讼或者与诉讼关联时处理ESI。本发明在处理和为数据编索引时保留在文档之间的上下文关系,从而允许在数据分析期间增加查准率与查全率。
Description
相关美国申请数据
本申请要求对于2010年10月6日提交的第61/390,221号临时申请和于2011年9月1日提交的第61/530,212号临时申请的优先权。
技术领域
本发明涉及处理数据的领域;更具体地涉及对电子存储信息的获取、处理、组织和分析。
背景技术
作为法律发现的部分,诉讼方必须产生大量信息。参见Fed.R.Civ.P.45(d)(需要响应于传票产生文档)。文档审查是诉讼的关键、耗时部分并且越来越多地变成诉讼过程的最昂贵部分。KIKER,Dennis R.′How to Manage ESI to Rein In Runaway Costs′。在Law.com的CorporateCounsel[在线]。2011年7月18日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://law.com/jsp/cc/PubArticleCC.jsp?id=1202503308698&src=EMC-Email&et=editoral&bu=Corporate%20Counsel&pt=Corporate%20Counse1%20In-House%20Tech%20Alert&cn=In_House_Tech_20110719&kw=How%20to%20Manage%20ESI%20to%20Rein%20In%20Runaway%20Costs>。每方通常提出广泛请求让它的对手产生它认为包含与它的主张和辩护相关的信息的文档。电子存储和传输的电子存储信息(“EST”)量的迅速攀升造成许多问题、比如存储、搜索、查全率、查准率等问题。CORTESE,Alfred W.,Jr.′Skyrocketing Electronic Discovery Costs RequireNew Rules′。在ALEC(美国立法交流委员会,American LegislativeExchange Council)Policy Forum[online]。2009年3月[获取于2011-10-06]。从以下因特网网址获取:<URL:http://www.alec.org/am/pdf/apf/electronicdiscovery.pdf>。虽然计算机可以处置大批搜索杂务,但是涉及到大量人力仍然必要。因此,往往发现的成本经常很高并且不断增加。Id。
由于在涉及到ESI的任何法律程序——这代表所有民事和刑事诉讼中的多数,参见PASSARELLA,Gina,″E-Discovery Evolution′:Costs of Electronic Discovery Are Growing′,In post-gazette.com(PittsburghPost-Gazette)[online],2011年8月15日[获取于2011-10-06],从以下因特网网址获取:<URL:http:post-gazette.com/pg/11227/1166927-499-0.stm>——中涉及到的高成本,所以诉讼人更可能参加早期案情评估(“ECA”)。ECA允许诉讼人在更广泛的实质审查发生之前确定在它们的ESI中包含什么。SILVA,Oliver,′Early Case Assessment(ECA)-Incorporating ECA into Your Discovery Strategy′。在e-LegalTechnology.org[online]。2010年[获取于2011-10-06]。从以下因特网网址获取:<URL:http://www.e-legaltechnology.org/member-articles/article-detail.php?id=39>。这在确定是否提出潜在诉讼或者如何针对潜在诉讼进行辩护而又都使高成本人力审查最少时特别重要。
当前可用ECA处理工具反映一种传统的、几乎基于纸件的文档再现方式。在典型纸件档案柜中,可以基于特定方法将所有文档组织成序列或者线性文件。如果用户寻找特定文档,则用户可以找到相关文件、然后需要按照序列顺序浏览每个文档以便找到特定文档。典型ECA处理工具将相同概念方式、即序列或者线性方法用于再现和获取电子信息。
例如电子邮件数据库代表纸件档案柜。每个电子邮件文件,并且将在文件中包括附到该电子邮件的任何文档(“附件”)。ECA处理工具将每个电子邮件存储为记录,并且按照序列顺序再现电子邮件正文和任何附件,这与将针对纸件文件所做的相同。
遗憾的是,电子消息不再限于这样的线性或者序列存储方法。个别电子文档可以不仅存储于其它电子文档之后而且通过对象链接和嵌入(“OLE”)嵌入于其它电子文档内和链接到其它电子文档,OLE是Microsoft开发的允许向文档和其它对象嵌入和链接的技术。
不仅必须审查每个电子邮件或者文档,而且必须保留文档的上下文和关系。在不知道创建文档的上下文的情况下,经常丢失它的完整含义。甚至也必须仔细保留文档内的信息的上下文,从而高级语义和语言分析工具可以在文档之间恰当评价并且准确比较概念。因此,文档的任何恰当获取需要精确和准确地获取文档中的信息和关于文档的信息。因此存在对开发可以用如下方式组织和搜索数据的方法和系统的增长需要,该方式保留信息的上下文并且允许审查嵌入对象,而又仍然维持恰当上下文中的文本(或者内容(substantive))以及概念信息。
本发明提供这样的方法和系统,该方法和系统用于从包含多个嵌入对象的文档提取信息或者数据。该方法和系统保留在文档及其嵌入对象之间的总体关系并且允许针对大量数据、即兆兆字节到千兆字节的迅速和高效数据提取和分析。
发明内容
本发明提出一种用于为一个或者多个文档di编索引的方法并且包括以下步骤:(a)确定一个或者多个文档di中的每个文档的文件类型fi;(b)执行从一个或者多个文档di对数据dai的提取ei;(c)针对一个或者多个嵌入对象dk测试从文档di的提取ei恢复的数据dai,并且如果检测到一个或者多个嵌入对象dk,则向缓冲器追加来自一个或者多个嵌入对象dk的数据dai,其中数据存在于一个或者多个文档di中,以及(d)针对一个或者多个文档di递归地重复步骤(a)到(c)直至在一个或者多个文档di中未检测到附加的嵌入对象dk;其中(1)在一个或者多个文档di中可视地表示数据dai;(2)数据dai包括文本、可视信息或者图形信息;(3)嵌入对象dk包含附加嵌入文档dk+n,其中n是代表在dk中相继嵌入的对象级数l的从1到n的整数;并且(4)一个或者多个文档di的文件类型可由文件类型确定器标识;并且还包括生成索引i,其中索引表示在文档di与嵌入对象dk之中的至少一个关系集合,并且其中文档di和嵌入对象dk具有与文档di与嵌入对象dk中的每个文档和嵌入对象关联的至少一个个别标识符idi或者idk;关于在文档di中的文本在内容和位置上保留di内的dk的可视表示的文本tk;并且针对每个文件类型fi存在个体的对应提取ei。
上文描述的方法还包括:针对所有嵌入对象dk递归地重复步骤(a)到(d),并且如果在dk中检测到至少一个附加嵌入对象,则执行提取附加嵌入对象直至在dk中未检测到附加的嵌入对象;并且其中用分级关系嵌入文档,分级关系由在di中嵌入的dk、在dk中嵌入的dk+1、在dk+1中嵌入的dk+2到在dk+(n-1)中嵌入的dk+n来表示。
本发明也提供一种用于审查数据的计算机系统。该计算机系统包括:(a)多个电子文档的源;(b)文件拆取器,用于从来自多个电子文档的至少一个文档di提取数据;(i)其中文件拆取器针对链接对象或者嵌入对象dk来测试每个文档di;(ii)其中如果检测到附加的链接对象或者嵌入对象dk,则文件拆取器递归地重复步骤(i);以及(c)索引i,其包括来自文档di和对象dk的数据,其中索引保留在di与dk之中的分级关系;di和dk各自具有至少一个个体标识符;以及通过使用对象映射m来保留di内的dk的可视表示;其中在计算机可读存储介质上的缓冲器中存储索引,计算机可读存储介质能够接收针对具体数据特性的请求,并且标识具有那些特性的文档dk或者嵌入对象dk;并且还包括库,库容纳分别用于文档di和对象dk的所有文件类型fi和fk的提取ei的方法;其中(1)计算机系统用于准备将要结合诉讼审核的文档;(2)计算机系统位于通过网络通信的多个服务器、处理器和存储介质内;(3)计算机系统包括用于接受用户输入或者显示计算机可读存储介质处理的数据的终端;(4)多个电子文档的源经由因特网与计算机系统的其他部件通信;(5)从包括文本文件、图像和电子表格的组中选择每个文档di;并且(6)从包括文本文件、图像和电子表格的组中选择每个嵌入对象dk;并且还包括能够接收至少一个文档di、从文档提取数据、并且针对所述链接对象或者嵌入对象递归地搜索文档的第一处理器。
上文描述的计算机系统还包括:(1)能够包含所有提取数据并且使缓冲器的特征在于用于分别编索引的每个链接对象或嵌入对象的数据的第一计算机可读存储介质,其中保留每个链接对象或者嵌入对象和文档di的内容、位置和文本关系中的每一个;(2)与计算机可读存储介质通信的第二处理器,该第二处理器能够接收针对具体数据特性的请求并且标识具有那些特性的文档di或者嵌入对象;以及(3)第二计算机可读存储介质,包含用于所有文件类型的所有个体程序的库;其中第二计算机可读存储介质与处理器通信;计算机系统用于在预期诉讼时准备文档;计算机系统位于通过网络通信的多个服务器、处理器和计算机可读存储介质内;计算机系统包括用于接受用户输入或者显示第一计算机可读存储介质和第二计算机可读存储介质处理的提取数据的终端;并且多个电子文档的源经由因特网与计算机系统的其他部件通信。
附图说明
下文参照通过引用而结合于此的附图描述本发明的说明性实施例。
图1A图示对象在文档内的多级嵌入
图1B是表示文档文件类型确定(typing)工作流程的本发明的一个实施例的框图。
图2是表示面向对象编程工作流程的本发明的一个实施例的框图。
图3是表示递归文件拆取(rip)工作流程的本发明的一个实施例的框图。
图4是表示本发明的一个实施例的工作流程的框图。
图5是具体说明从嵌入或者链接对象提取元数据和文本的工作流程的框图。
图6A是表示本发明的一个实施例的系统和方法处理的文档搜索查询的结果的框图。
图6B是表示本发明的一个实施例的系统和方法处理的文档搜索查询的结果的框图。
图6C是表示本发明的一个实施例的系统和方法处理的文档搜索查询的结果的框图。
图7是表示其中提取并且向文本缓冲器追加内嵌文本(in-linetext)的本发明的一个实施例的框图。
图8是表示其中针对文本测试文档中嵌入的图像的本发明的一个实施例的框图。
图11是图示运用本发明的系统和方法的试验搜索的一个结果的表示。
具体实施方式
本发明涉及用于包括在准备诉讼或者与诉讼关联时高效获取、处理和分析数据的系统和方法。本发明的系统和方法的使用允许保留与原生(native)文件文档关联的电子信息而又同时允许以增加的查准率与查全率查看、操纵、搜索和处理文档。参见http://en.wikipedia.org/wiki/Precision_and_recall[获取于2011-10-06]。
早期案情评估(“ECA”)通常通过保留和收集所有相关ESI来开始。然后使用ECA处理工具来处理潜在相关数据以用于过滤、搜索或者执行数据分析这样的目的。
“处理”是指使用计算机系统或者等效电子设备以将当前在计算机系统的内部或者外部存储器中的数据操纵和变换成可以在计算机系统中存储或者从计算机系统导出的另一数据形式。ECA通常涉及到以ESI的原生形式获得它,该形式可以包括许多不同类型的文件格式。也可以加密或者保护原生数据。因此有必要让电子找到工具能够处置多个不同类型的文件格式。参见BUCKLES,Greg.′TheDevilis in the Details-Processing Pitfalls′。在eDiscovery Journal[在线]。2010年4月29日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://ediscoveryjournal.com/2010/04/the-devil-is-in-the-details-%e2%80%93-processing-pitfalls>。另外,由于电子找到工具必须能够处理多个不同文件格式,所以它应当在它处理ESI时熟练处置异常从而让用户能够知道它不能成功处理哪些文件。如果未准确记录和传达这一信息,则用户可能不知道尚未处理特定文件并且因此不能采取进一步动作以保证在为诉讼中的可能产物做准备时获取、处理、分析这些文件中的信息。Id。
处理也可以涉及到“剔除”和/或“去重复”以及找到文档的“接近重复”。BURNEY,Brett,′Dispelling Doubts About De-Duplication′。在InsideCounsel[在线]。2008年7月17日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://www.insidecounsel.com/2008/07/17/dispelling-doubts-about-deduplication>。剔除涉及到基于比如日期范围或者其它元数据(管理人、文件类型、原始位置等)这样的参数集合从搜索数据库去除文档。去重复在多个副本存在时产生项的一个实例。该过程通常基于整个文档的哈希值。Id。接近去重复通常基于在更细微粒度化级组合匹配信息(在文档内的多级而不是针对整个文档)并且应用基于概念的文档比较。MURPHY,Barry.′Content Analytics-The Heart of ECA′。在eDiscoveryJournal[在线]。2011年3月3日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://ediscoveryjournal.corn/2011/03/content-analytics-the-heart-of-eca/>。
计算机哈希化是指比如SHA-1和MD5这样的算法系列,这些算法形成电子找到或者“e-找到”的数学基础。LOSEY,Ralph.′Hash′。在e-Discovery Team[在线],[获取于2011-10-06]。从以下因特网网址获取:<URL:http://e-discoveryteam.com/computer-hash-5f0266c4c326b9alef9e39cb78c352dc/>。哈希化生成用于标识特定计算机文件、文件组或者甚至整个硬件驱动的唯一字母数字值或者“哈希值”。Id。哈希值充当确保数据真实性的数字指纹并且保护它以防过失或者有意更改。Id。
可以被编索引的处理数据以在使用搜索查询或者文本数据挖掘来找到相关文档时优化速度和性能。参见SMITH,Chris.′Introduction to Database Indexes′。在Interspire[online]。2006年2月15日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://www.interspire.com/content/2006/02/15/introduction-to-database-indexes>。在无索引时,为了搜索相关数据库,必须个别检查每个记录。这一类型的分析需要大量时间和计算能力。Id。在恰当编索引时,搜索可以涉及相关简档而未检查整个数据库。例如可以在毫秒内查询10,000个文档的索引,而序列搜索10,000个大型文档中的每个单词将需时远远更久。为了存储索引而需要的附加计算机存储装置以及为了发生更新而需要的时间的大量增加换取在信息获取期间节省的时间。Id。
ESI总是不仅包含文本、可视和图形数据,而且包含描述数据本身的称为元数据的数据。对ESI的发现经常需要收集、处理和分析这两种类型的数据。参见WESCOTT,W.Lawrence II,′The IncreasingImportance of Metadata in Electronic Discovery′,14 RICH.J.L.& TECH.10[在线][获取于2011-10-06]。从以下因特网网址获取:<URL:http://law.richmond.edu/jolt/vl4i3/articlel0.pdf>。以数据的原生格式使用它可能带来技术挑战、比如不修改它们的元数据就不能编写(redact)、标记或者标注文档。MACK,Mary.′Native File Review:
Simplifying Electronic Discovery?′。在Legal Tech Newsletter[在线]。2005年12月1日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://www.fiosinc.com/e-discovery-knowledge-center/electronic-discovery-article.aspx?id=306>。因此,通常将数据从它的原生格式、比如MicrosoftWord“.doc”转换成诸如标记图像文件格式或者“TIFF”之类的可用格式。为了保留和提取不同形式的元数据,当前ECA处理工具使用基于预定义文件类型的集合的“文件拆取器(fileripper)”。针对ECA处理要求预定义的文件类型;因此,如果ECA处理工具并非可靠地识别文件类型,则将完全未处理或者未正确处理对象。
OLE(以及比如在开放式Office和Java对象中找到的相似技术)允许编辑者向另一编辑者“转包”文档的部分、然后重新导入它。例如桌面发布系统可以使用OLE向字处理器发送某一文本,或者向位图编辑器发送图片。使用OLE的主要益处是显示主机程序通常不能自己生成的、来自其它程序的数据可视化(例如在文本文档中的饼形图)以及创建主文件。可以从主文件引用特定信息。如果改变主文件,则也将改变特定信息或者数据可视化而无需人工编辑包含引用的文档。在另一示例中,使用MicrosoftWord来创建的文档可以包含在其中链接的MicrosoftExcel电子表格。即使可以在Word文档内链接整个Excel电子表格,也仅有电子表格的选择部分可以让用户可查看(例如可视表示或者视窗)。多数当前ECA处理工具将认识到存在嵌入的Excel电子表格,但是程序将提取嵌入的Excel电子表格的整个文本,并且作为独立的记录或者在父文档的末尾放置它。该文档中的文本的上下文被丢失,并且文本不代表阅读者在查看父文档时将会看见的数据。
丢失在文档与嵌入的电子表格之间的上下文关系可能在搜索(概念、短语和/或者邻近搜索)时引起误导结果。参见′ACC:Why OLEObjects Cause Databases to Grow′。在MicrosoftSupport[在线]。2007年1月19日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://support.microsoft.com/kb/123151>;BUCKLES,Greg.′Proximity Search Challenges in E-Discovery′。在eDiscovery Journal[online]。2011年1月10日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://ediscoveryjournal.corn/2011/01/proximity-search-challenges-in-edisovery/>.。
因而,诸如邻近搜索和概念聚类之类的数据分析经常关于文档的如下文本而无效或者效果显著减少,该文本紧接包围电子表格的可视表示的文本。对于与概念有关的技术、比如潜语义编索引(LSI),单词的位置信息以及在给定的文档(以及文档总群体)中存在的单词和概念总数可能影响结果的“相关度”排名。与使用可视表示(视口)组合的“内嵌”文本提取减少文档内的潜在概念数目,这在多数情况下保持信噪比更佳并且为使用概念作为测量的基于概念的算法保留物理关系。以这一方式,用于概念和邻近搜索的文本分析近似于人类用户在他或者她阅读实际原生文档时所见。
在文档内仅存在指向外部数据的链接的情况下,该数据如何随时间改变的上下文也可能被误导。例如对链接到文档的下层对象的相继更改也创建对用户在任何给定时间查看的文档的可视表示的相继更改。另外,由于文档收集来自具体时间点,所以收集的文档可能不代表文档和其中的数据的原始阅读者/用户将已经在特定时间点所见。表示和提取用于文档内包含的所有对象的元数据因此是关键的。不能恰当地记录、获取、处理或者分析这一信息可能导致在诉讼中损失证据。参见Stanley,Inc.v.Creative Pipe,Inc.,269 F.R.D.497(D.Md.2010)。
设计传统ECA处理工具快速为数据编索引,从而人类审查者可以搜索和审查数据。这些系统以线性或者序列方式处理和为数据编索引,其中为收集和处理的每个文档创建单个记录。这些系统对于档案柜中的纸件文件或者对于具有附件的文本电子邮件工作良好。然而,如果电子文档包含诸如嵌入或者链接元素之类的其它元素,则关于链接或者嵌入对象的信息可能在以这一方式创建索引时变得丢失。
为了解决这一问题,本发明创建原生文档的记录或者索引、和链接到原生文档或者在原生文档内嵌入的所有对象的可视表示,以及用于每个链接或者嵌入对象的独立记录。系统然后在缓冲器或者数据库中存储这一信息。存在用于应对缓冲(或者高速缓存数据用于短期利用)的许多通用方法。它通常涉及到在存储器中存储数据或者在存储器中存储为数据对象汇集,而又允许这一存储器在它增长过大时流向辅助存储装置。Microsoft.NET和许多其它编程环境赋予用于管理这一以及专门化汇集(“汇集”是用于经常用可以针对使用的对象和访问模式类型而优化的各种算法管理一个或者多个数据对象的软件术语)的内置工具。本发明也标识所有链接或者嵌入对象物理地位于原生文档中何处。创建(i)用于标识嵌入对象及其位置的独立记录,以及(ii)描述在嵌入对象与它们嵌入于其中的文档之间的关系的索引保留信息的非线性元素并且允许人类审查者更快搜索和审查文档汇集。这一结构保留允许在实施数据分析、比如邻近或者概念搜索时增加查准率与查全率。
更具体而言,通过以文档的原生形式取得一个或者多个文档di,并且对那些文档以及对链接到那些文档或者在那些文档内嵌入的任何对象或者“嵌入对象”dk执行提取ei来发生提高的查准率与查全率。如这里所用,下标“i”和“k”用来在文档之间与嵌入于那些文档中的对象之间区分,并且与字母、比如“d”结合用来标识描述的对象、即“d”用于文档、“f”用于“文件”等。提取ei是指从文档di收集数据dai的过程。总体来说,数据dai——可以在一个实施例中表示该数据的子集为文本tk——可以实质际上涵盖任何类型的如下数据,该数据包括文本或者可以转换成文本和/或元数据、比如文本本身、图形、可视、可听数据等。
术语“数据”代表可以从其标识文本和/或元数据的实质上任何类型的信息的抽象概念。例如可以在电子邮件(例如作为电子邮件而发送的语音邮件)中嵌入音频文件。备选地,可以在文档内嵌入矢量文件、图形文件或者任何其它类型的文件类型。提取音频信息将需要应用语音到文本识别软件以及提取文本。备选地,可视数据(如电影)可以存在并且使用标准方法来提取、术语“提取”与术语“拆取”可互换地使用。“拆取”是指直接提取嵌入对象。可以对任何文档di执行1到n次提取ei。术语对象dk是指可以链接到文档di或者在文档di内嵌入的电子格式、比如(而不限于)文件、文档、记录、表、图像、图片或者其它图形中的任何类型的信息。
然后在数据库或者缓冲器中存储从提取ei恢复的可以表示为dai的来自文档di的数据。数据dai可以实质上是任何类型的如下数据,该数据可以包括文本或者可以转换成文本和/或元数据、比如文本本身、图形、可视、可听数据、容器(如下数据文件,这些数据文件包含其它文件/对象、比如存档文件、电子邮件存储库等)、编程指令和其它数据。参见http://en.wikipedia.org/wiki/Data_type[获取于2011-10-06]。数据库或者缓冲器b以索引i为特征,其中作为独立的记录而维护来自文档di的数据dai和链接到那些文档或者在那些文档内嵌入的对象dk。对独立记录连同用于文档或者对象di或者dk的对象映射m一起的创建保留在嵌入对象之间的总体关系。通过保留文档内的对象的关系,映射使人类审查者能够如在di的原生版本中看见嵌入对象或者附着对象(即考虑电子邮件的文件附件)的特定可视表示那样快速访问它们。
为了清楚起见,对象有时被称为“子(children)”,并且其中嵌入它们的文档称为“父(parent)”。另外,将di和dk保持为独立的记录,并且保留对它们中的任一个固有的任何版本或者改变。在图1A中图示具有嵌入文档dk的文档di的总体结构。文档di具有在级1这第一级在文档中嵌入的这里表示为dk、dk+1、dk+2和dk+3的对象dk。在这一图示中,在dk的可视表示中,存在在级2的另一嵌入对象dk+4,并且在该可视表示中,存在在级3的另一嵌入对象dk+5。如将理解的那样,可以用于每个文档di的1到n级而在每级在可视表示内嵌入1至n个嵌入对象dk。换而言之,嵌入对象本身可以在它内并且针对至少1到n个级别以此类推具有嵌入对象。此外,每级可以包含多个嵌入对象dk。例如参见图1A的级1。在缓冲器中存储的索引维护总体关系或者不仅在级和文档di内而且在级之间和在对象dk之间的映射。级数可以范围从1-100、1-250、1-500、1-1000或者1-1024等;然而对本发明的系统和方法可以解决的级数没有上界限制。
每个文档di或者嵌入对象dk可以具有与它关联的至少一个个体标识符idi或者idk。文件类型确定也能够应对多个类型的文档。多数常见文档类型已经发布可以用来标识实际文档类型的下层文件类型的部分。此外,存在许多如下文件类型,这些文件类型具有定义的结构并且是公认国际标准(例如用于EML的RFC-422(一些电子邮件的专用格式))。
其它方法需要基于数据结构本身解译文件类型。因此,文件类型确定不能100%准确并且有时必须依赖于数据和/元数据中的“线索”以确定最可能文件类型。因而,本发明的文件类型确定器输出文件类型标识的置信度级,从而可以评价其它文件类型以标识错判的实例。置信度级可以是四个值之一:未知、仅元数据、仅数据、元数据和数据生效。“未知”是指如下实例,在该实例中,任何方法都不能标识文件类型的实例。“仅元数据”指示该元数据、比如到文件类型的文件名扩展被用来标识文件类型,因为文件中的数据不能用来进一步缩小文件类型。“仅数据”意味着在检查文件内包含的数据之后系统标识文件类型、但是与文件相关联的元数据没有指示它应当是什么种类的文件或者元数据与文件关联的内部数据不一致。例如可以存在如下实例,在这些实例中,MicrosoftWord文档具有MicrosoftExcel电子表格的文件扩展名(.xls),但是文件内部的数据表明它是MicrosoftWord文档。最后,“元数据和数据生效”是指如下实例,在该实例中,内部元数据和内部数据二者关于文件类型一致。
文件类型确定可以使用诸如文件扩展名之类的线索以确定最可能文件类型可能是什么。这很经常避免不必要地检查数以百计的其它文件类型格式,并且也减少了“误判”的机会。许多文件类型具有被称为“魔幻ID”的如下ID,该ID简单地是将在一个或者多个具体位置(可以是实际文件内对绝对位置或者相对位置)具有相同值或者已知值范围的字节序列(有时序列而有时不是)。其它类型共享诸如MicrosoftStructure Storage之类的共同结构(例如MicrosoftOffice文件),这些结构需要代码以读取这一结构并且解译各种信息“流”以确定下层文件类型。例如MicrosoftWordExcel以及甚至PST(电子邮件容器)利用结构存储系统来以相似方式组织实际具体数据,但是实际数据本身是文档类型完全特有的。由于任何特定提取ei分别基于文档或者嵌入对象di或者dk的特定文件格式或者类型fi或者fk,所以从文档提取ei信息可以造成在处理时间和数据恢复二者时增加效率。
可以使用与对计算机存储器内的数据位的操作的算法和符号表示相关联的术语来定义本发明的下文具体描述。基于算法描述的描述和基于表示的描述常被本领域技术人员用来描述他们的发明的实质过程和工作。算法是表达为有限指令或者步骤序列的用于解决问题的有效方法。将步骤定义为对电或者磁信号的物理操纵。另外,可以在计算机程序方面描述或者标注本发明的具体描述。程序是为计算机或者相似电子设备而编写的用于执行指定任务的指令序列。如贯穿本申请所用,“程序”、“过程”或者“算法”的使用不限于任何特定源代码。代之以使用这些术语作为用于描述与本发明关联的功能或者执行的方便标签。
这些术语中的每个术语仍然适用于适当物理数量并且仅为了方便而以这一方式加以标注。如将从下文讨论中清楚的那样,理解贯穿本描述,术语“处理”或者“扫描”是指计算机系统或者相似计算设备的动作和过程。
术语索引意味着以更慢写入和增加的存储空间为代价提高对数据库表的数据获取操作速度的数据结构。BIENIEK,Daren等人,′SQL Server 2005 Implementation and Management′,Chapter 4:CreatingIndices(Microsoft Press 2006)。
本发明也涉及用于处理从提取中恢复的信息的任何装置、工具或者计算机系统。本发明可以并入用于执行方法的专门化计算机或者运行所需程序的任何其它计算机。系统可以使用任何类型的机器可读存储介质、比如只读存储器(“ROM”);随机存取存储器(“RAM”);磁盘存储介质;光学存储介质;闪存设备;电、光、声或者其它形式的传播信号(例如载波、红外线信号、数字信号等)。GANTZ,John F.等人′The Diverse and Exploding Digital Universe′。在International Data Corporation via EMC[在线]。March 2008[获取于2011-10-06]。从以下因特网网址获取:<URL:http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf>。各种通用系统或者计算机处理器可以与这里描述的过程和程序一起使用。这些系统可以由服务器、处理器、引擎和计算机或者机器可读存储介质类别组成。然而也可以设计专门化的装置以用于与这一系统一起使用。此外,可以在包括而不限于Smalltalk、Eiffel、Ruby、JADE、C++、C#、Java或者Python的若干不同编程语言上运行本发明。FISHER,Steven R.,A History of Language′,第205页(Reaktion Books2003)。
系统和方法不限于任何特定网络。系统和方法可以在因特网、局域网(LAN)或者任何其它类型的网络、网络部分之上或者通过云计算系统工作(参见http://en.wikipedia.org/wiki/Cloud_computing[获取于2011-10-06])。另外,系统和方法并不依赖于任何特定数据传输速率。系统的个体部件(即服务器、处理器、存储介质等)无论它们的物理位置如何,只要它们并入了与其它装置通信的装置就可以类似地工作。
最后,系统和方法可以并入任何数目的终端。终端用于诸如搜索命令之类的输入数据,或者诸如显示搜索结果之类的输出数据。终端在这一情况可以指个人计算机、工作站、膝上型计算机、监视器或者其它通信设备。如这里所用,数据可视化是指如将在原生文档上感知的那样在特定时间精确取回(precise recall)文档的版本和链接到文档或者在文档中嵌入的对象的任何版本。如初始用户在数据与OLE的关系中所见的数据可视化并不依赖于任何特定终端。换而言之,使用本发明的系统和方法来处理的文件中的链接对象或者嵌入对象的可视表示在内容上和在物理位置上与在原生文件中相同。嵌入对象在电子邮件中以及在包括MicrosoftWordPowerPointExcel等的许多其它常见MicrosoftOffice文档中越来越常见。此外,诸如PDF和Open Office之类的其他文档类型常常运用它们。一般参见http://en.wikipedia.org/wiki/Object_Linking_and_Embedding[获取于2011-10-06]。
以下发明包括若干部件,这些部件形成文件转换和编索引方法的基础。术语部件仅为了方便而加以使用,并且可以是指存储介质、计算机处理器或者程序类别。本发明不受个体部件的位置或者物理存在的限制,因为该术语可以是指系统或者方法固有的功能。术语部件可以物理地不可分离、在网络上互连或者在单个服务器、处理器或者其它设备内发生。
本发明的部件在一起工作时允许提高电子文档的查准率与查全率。通过从电子文档源取得一个或者多个文档di并且对它和其中嵌入的任何一个或者多个对象dk执行提取ei或者拆取来发生文件的内容提取。可以可互换地使用术语提取和拆取。特定提取ei分别基于文档di或者对象dk的特定文件格式或者类型fi或fk。可以可互换地使用术语对象和文档,因为对象dk虽然仅为文档的一部分,但也是文档。文件类型确定器确定每个文档或者对象di或者dk的格式。然后在以索引i为特征的数据库或者缓冲器b中存储从提取ei恢复的数据dai,其中保持来自文档和对象di和dk的数据为独立的记录从而允许保留di或者dk的任何版本或者改变。这一数据包括用于文档di或者对象dk的对象映射m,该对象映射标识对象在文档内的物理位置并且保留涉及dk的数据如在di中看见它那样的可视化。对象映射m和独立的记录在执行数据分析时增加查准率和查全率。在可用(和适合)时对可视表示完成“内嵌文本提取”,并且提取和本身作为子文档进一步处理全嵌入对象。
参照图1B,本发明的方法和系统可以包括电子文档源100。电子文档源100包含处于未处理形式或者原生形式的文档。在一个实施例中,通过一个或者多个其它迭代过程递归地扫描或者检查电子文档源100以对在父文档以及子文档这二者中包含的每个电子对象或者文档定位。重要的是注意电子文档源100包括任何类型的计算机可读存储介质。存储介质可以在系统内部或者外部,或者封装于能够输入数据的任何类型的设备中。类似地,术语电子文档可以是指以电子形式存储的任何文档、包括在其它文档内嵌入的文档以及文件、对象、记录等。
不断地创建新文件类型。当前可用ECA处理工具缓慢适应新创建的文件类型,因为多数ECA处理工具依赖于包裹在它们的专有工作流和代码中从而防止更改的外界软件实用程序和工具。BUCKLES.Greg.′The Devil is in the Details-Processing Pitfalls′。在eDiscovery Journal[online]。2010年4月29日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://ediscoveryjoumal.corn/2010/04/the-devil-is-in-the-details-%e2%80%93-processing-pitfalls/>。因而,具有未知文件类型的对象不能用这些ECA处理工具来处理,并且经常需要被移至系统以外以用于处理。当前ECA处理工具固有的问题也延伸到不止是未知的文件类型。当前ECA处理工具面向处理有限数目的不同参数、比如文件的所有者和存储位置。然而随着电子数据的激增,以如下方式存储文件,该方式为它们变成与多个不同类型的判据(比如位置、版本、所有者、存储日期等)相关联。为了准确审查数据,ECA处理工具必须在存储和处理信息时考虑所有这些关系。因而,系统也可以包括文件类型确定器120。
文件类型确定器120确定每个文档的文件类型。文件类型确定器120可以是程序、过程或者算法或者是处理器或者引擎的功能。分别确定di或者dk的文件格式或者类型fi或者fk是重要的,因为每个文件是根据它的特定文件类型而被处理。
如图4中所示,本发明也可以已经在它的程序内并入从文档去除加密或者口令保护的文件描述器510。RUBENS,Paul,′PGP′sUniversal Server Provides Unobtrusive Encryption′。在EnterpriseNetworking Planet[online]。2008年12月22日[获取于2011-10-06]。从以下因特网网址获取:<URL:http://www.enterprisenetworkingplanet.com/netsecur/article.php/3792771/PGPs-Universal-Server-Provides-Unobtrusive-Encryption.htm>。系统也使用文件拆取器520。文件拆取器520是用来从文件提取数据(即执行提取ei)的程序,其中数据包括而不限于嵌入对象、文本、图像和元数据;注意这一列举仅为了举例说明可以提取的不同文件类型的多样性。使用的特定文件拆取器520基于由文件类型确定器120确定的文件格式fi或者类型fk。这增强从系统获取、处理和分析的信息的速率或者质量,因为文件拆取器识别可以提取处于给定的文件格式的什么数据。
在由130、131、132(图1B)表示的标识电子文档的文件类型的文档类型确定器库中容纳各种文件格式。系统的文档类型确定器库130、131、132由于它的面向对象编程而具有增加的模块性。这允许使用插件技术来扩展库130、131、132以便添加新文件类型支持,而无需重写或者影响系统的总体性能特性。更新库130、131、132可以在标识先前未标识的文件类型时通过迭代过程来发生。库130、131、132可以位于与系统的其它方面相同的引擎、存储介质或者服务器中或者位于与系统通信的外部部件中。
文件拆取器520(图4)从原生文档提取数据并且在共享存储器过程中为数据的复本编索引。提取的特定数据包括(i)每个文档的元数据、(ii)描述在文档与链接到那些文档或者在那些文档内嵌入的对象之间的父子关系的信息、(iii)来自正被处理的每个文档或者对象的文本和可视表示、(iv)对象映射525以及(v)目录结构。总体而言,数据dai——可以在一个实施例中将该数据的子集表示为文本tk——可以涵盖实质上任何类型的如下数据,该数据包括文本或者可以转换成文本和/或元数据、比如文本本身、图形、可视、可听数据等。提取作为文件拆取器520针对一个或者多个文档di内的嵌入对象或者链接对象dk的测试550而发生。如果找到嵌入对象,则系统将执行递归提取和记载(图5)。独立地为文档及其它们的嵌入对象或者链接对象——如果有的话——的记录编索引,以尤其在执行如在图6A-C中更完全示范的高级数据分析时增加查准率和查全率。重要的是,如果如图1A中所示存在在对象内嵌入的对象,则对与在特定文档di内存在的一样多级嵌入对象执行数据提取。本发明的系统和方法提取和记录涉及多级嵌入对象的数据并且保留在父与子之间的关系。
文件拆取器520涵盖系列程序或者算法。文件拆取过程可以在一个或者多个引擎、存储介质或者服务器内发生。可以将提取的数据处理成只读格式,从而允许存储和后续编索引。存储和编索引可以用与文件拆取器520相同的引擎、存储介质或者内部或者基于web的服务器发生或者可以在与文件拆取器520通信的另一引擎、存储介质或者服务器中发生。
本发明的系统也包括数据库(缓冲器)或者其它存储介质150(图1B)。数据库150能够从系统的其余部分接收信息,诸如从文件拆取器520接收提取的数据,并且存储信息和为信息编索引。数据存储受系统中诸如大小约束之类的实际限制。系统可以并入本领域已知的各种存储和编索引技术以增加数据的可管理性、比如使用使用了视窗化技术的存储器映射文件以减少虚拟覆盖区。数据库150的编索引结构可以由任何商业上可用的与ANSI SQL兼容的数据库格式或者其它相似编程方法、比如B树或者其它记录管理以及有关算法和方法组成。数据库150还能够接收输入并且提供输出。另外,可以操纵数据库中存储的数据而又仍然保留处理的数据。例如可以查看、搜索或者编写数据库150中的数据而不破坏下层元数据、文本或者其它类型的数据。
如果待处理的文档包括嵌入图像,则本发明确定图像类型345,并且用光学字符识别(“OCR”)库来处理图像以提取内部包含的任何文本,从而可以搜索文本内容(图3)。
系统也(可选地)通过使用文档过滤器140(图1B)标识和消除已经提取、处理和分析的文档的重复。通过保证去重准确度的许多强密码(MD5、SHA1和SHA256是如今最常用方法)从多到少(many-to-few)的位映射算法实现文档去重复(“去重”)。例如一个实施例将哈希化函数、比如MD5与另一强密码算法、比如SHA1一起使用以保证去重过程的准确度。在处理每个文档对象时为它计算MD5和SHA1签名。使用电子邮件消息的“发给”、“来自”、“主题”、“发送日期/时间”、“抄送”、“密送”和“正文”字段或者可选地根据与电子邮件关联的元数据的其它组合计算消息的哈希签名。接着计算任何附件的MD5和SHA1签名,并且添加到原始MD5和SHA1签名以产生最终值。未从电子邮件消息去除附件。然而本发明的一个实施例单独地存储任何附着文件的MD5和SHA1签名,从而如果附着到电子邮件消息的相同文件也在信息系统中独立地出现,则将文件的该第二实例识别为附着到电子邮件消息的文件的实例的重复。
文档过滤器140还能够基于由用户建立的指令或者规则来排序或者消除文档(图1B)。这些指令可以基于标准、比如日期范围、特定数据特性、文件类型或者文档在电子文档源100中的目录或者路径的任何组合。
可以使用“精简”或者“稀疏”索引类型来实现用于文档/元数据数据库150的索引。精简索引是如下文件,该文件具有用于数据文件中的每个块的关键值和指针对。在这一文件中的每个关键值与指向排序的数据文件中的块的特定指针相关联。在具有重复关键值的聚类索引中,稀疏索引指向每个块中的最低搜索关键值。本发明的一个实施例利用如下精简索引,该精简索引创建文本、元数据和物理关系的索引而未向存储设备保存与文档关联的原生数据。这允许更少输入/输出并且允许在需要数据时以“实时(just in time)”方式提取数据,这有利地提供对数据的更快访问和减少稀缺系统资源、比如存储器和盘存储装置的利用。
根据本发明的另一方面,系统允许用于以多种不同方式搜索在数据库150中找到的提取的和处理的数据。搜索命令可以由用户通过终端向系统中输入并且可以涉及数据的任何特性、比如文本数据或者元数据单词或者关系的特定实例。搜索类型可以包括从一个或者多个单词的常见形式的词根抽取词干、搜寻同义词或者表达或者语音、模糊、布尔、截取、嵌套或者停用词搜索。这些搜索可以由用户“在运行中”执行或者保存为预定义搜索,并且可以并入从处理的一个或者多个信息系统获取的元数据。系统也允许在搜索期间使用邻近算符。例如用户可以在“单词B”的5个单词内搜寻“单词A”。在一个实施例中,本发明的系统和方法可以基于标准统计搜索方法在关键词搜索期间提供关键词建议。这些建议可以用户提供的对单词的变化有关。这一类型的关系使得用户能够确定用于在关键词搜索期间使用的最有利获取词。可以在用户向界面中键入搜索获取词时实时提供建议,或者可以提供建议作为针对在特定关键词搜索中利用的搜索获取词而生成的搜索报告的一部分、或者通过使用同义词、上位词、下位词和反义词来提供。这一报告使主题内容专家能够审查这些获取词以确定哪些查询将提供针对响应文档的最完整和全面的搜索。此外,在系统内完全支持使用其它搜索引擎、比如概念搜索引擎的搜索。
还可以通过比如用数据编写、标记或者发表关于维护和可查看的特定文档的评论这样的过程来操纵数据。操纵可以被去除、仅可被某些用户查看或者被添加而未破坏下层数据组织。
本发明从存储电子文档源100(图1B)的一个或者多个信息系统获取待处理的数据。在数据的原生格式中的来自一个或者多个信息系统的数据可以存储于系统内部或者外部。电子文档源100可以包括多个不同类型的电子文档,任何电子文档可以链接到其它对象或者嵌入于其它对象内。例如文档可以包括如下电子邮件消息,这些电子邮件消息带有或者无附件或者其它类型的链接或者嵌入信息。电子邮件消息可以在多种格式,比如MicrosoftOutlook或者MicrosoftExchange或者Lotus Notes以及AOL或者基于web的电子邮件服务、比如Google′sGmailTM或者Microsoft′sHotmail中。文档也可以包括由诸如MicrosoftWord或者CorelWordPerfect之类的软件创建的字处理文件、由MicrosoftExcel或者Lotus1-2-3之类的软件创建的电子表格、MicrosoftPowerPoint演示、或者适用于AdobeAcrobat或者类似软件的.pdf文件。其它示例可以包括计算机可以数字地存储和处理的包括图像、视频和音频文件以及任何其它信息或者文件的任何其它文本或者数据文件。递归文档爬取器110处理从电子文档源100获取的ESI以保证获取所有文档对象dk。递归在本领域中常用来处理可以包含其它对象的对象,这些其它对象本身可以包含其它对象。递归文档爬取器110可以被标识为在与系统的其它方面相同的引擎、存储介质或者服务器中或者在与系统通信的外部部件中容纳的任何程序或者过程。
文件类型确定器120确定文件的类型并且使系统能够处理大量不同文件类型。电子文档源100可以包括多个文件以及多个不同文件类型二者。因而文件类型确定器120包括文档类型确定器库130、131、132。这多个文档类型确定器130、131、132使文件类型确定器120不仅能够确定多个不同文件类型中的类型而且处理这些多样文件类型。文件类型确定器120可以利用位于库130、131、132中的可扩展、模块化面向对象软件框架。可以向这一框架添加附加文档类型确定模块,以使文件类型确定器120能够处理未识别的文件类型而不破坏文件类型确定器120的用于处理现存已识别文件类型的能力。
一个或者多个文档过滤器140可以根据需要而被用来挑选获取、处理和分析的电子文档。例如响应于用于产生文档的请求,可以迫使响应组织标识请求的信息的管理人。管理人将一般是具有相关文件的读取和写入访问的那些个人。在发现过程开始时已知、在发现过程期间确定管理人的身份或者这二者的程度上,文档过滤器140使得用户能够将使用本发明来处理和分析的信息范围仅限于相关管理人拥有或者写入的那些文档。这一过滤还减少待分析和审核的信息量、由此削减与文档发现关联的时间并且因此削减与文档发现关联的开支。文档过滤器140不限于基于管理人信息的过滤。其它过滤器支持基于而不限于文件大小、文件创建或者修改的日期和时间、文件类型、文件类型分类或者二者对获取、处理和分析的信息范围的相似减少。
图2显示系统的与文件拆取器520(图4)关联的面向对象编程布局。编程逻辑通过文件类型确定迭代器210、220、230、235和240发送文件的临时副本200。处理文件的临时副本200的特定迭代器对应于文件的临时副本200的文件格式。文件类型确定迭代器210、220、230、235和240是独立模块,从而允许向库130、131、132添加新模块。这些类型确定迭代器210、220、230、235和240处理文件的临时副本并且确定文件是否为容器(即多个对象的汇集)。这些容器可以表示电子文件或者文档、比如电子邮件,并且从对象260提取的嵌入对象可以表示向该电子邮件的附件。
系统递归地处理现在确定为容器的文件的临时副本200并且搜寻其它链接对象或者嵌入对象250(图2)。如果找到,则将在嵌入对象处理器260中针对附加嵌入对象进一步处理这样的嵌入对象。嵌入对象处理器260从链接对象或者嵌入对象提取数据,并且向文档数据库150(图1B)发送数据。也创建并且向对象处理器280发送链接或者嵌入对象的临时副本270,该对象处理器再次开始循环针对附加嵌入对象250检查链接或者嵌入对象的临时副本270。因此如上文讨论的那样,在di中嵌入的对象dk本身可以包含附加嵌入对象dk+n,其中n是在1与n之间的整数,并且仅用来指示可以在di中存在多个嵌入对象或者文档或者多级嵌入对象或者文档。例如参见图1A。
可以在文档处理器310(图3)中处理文档300。处理每个文档300以确定它是否为(i)容器320、(ii)独立文档330、(iii)图像数据340或者(iv)另一文档类型350。容器处理325处理每个容器。文档处理335处理每个独立文档。图像处理器345处理具有图像数据的每个文档。
被标识为容器320的文档可以包含多个不同文档文件类型。例如给定的文档300可以是电子邮件消息容器或者文件存档容器、比如.zip或者.tar文件。作为容器处理325的部分,文档处理器310通过递归地迭代遍历容器内包含的每级对象以保证获取容器内的每个对象。虽然文档处理器310递归地处理容器内的每个对象,从而处理容器中的在每个包含级的每个对象,但是本发明不限于所有容器320的递归处理。
每个独立文档330根据其的文件类型进行处理。在图1B中图示文件类型确定的作用。独立文档330可以包含图像数据340。在一个实施例中,系统通过图像处理装置345处理包含图像数据340的文件。参 见http://en.wikipedia.org/wiki/Digital_image_processing [获取于2011-10-06]。使用国际标准来很好地规定图像处理和格式。可以处理例如包括.gif、.jpeg、.png、.svg、.pdf和.GIFf的多个不同图像类型。一个实施例利用先前结合图1B描述的可扩展模块化面向对象文件类型确定框架,可以向该框架添加图像处理345的附加模块以处理不熟悉的图像类型而无损于本发明的现存图像处理能力。本发明的系统和方法的另一实施例利用光学字符识别,从而如果独立文档330包含图像数据340,该图像数据又包含文本信息,则一个或者多个光学字符识别模块处理图像数据340,从而可以从图像提取文本信息。本领域技术人员将理解本发明不限于具体光学字符识别方法并且本发明涵盖本领域已知的任何光学字符识别技术。
由于处理的文档300可以是许多不同文件类型之一(图1B),所以也根据处理的文档对象300的文件类型按照需要执行其它文档处理350。
本发明的方法可以在处理每个文档300时从它提取包括元数据和文本信息的附加数据。这一提取通过创建信息的索引来提高获取、处理和分析来自标识为电子文档源100(图1B)的数据的速率,因此无需检查整个电子文档源100。提取如下元数据,该元数据重复每个容器320或者独立文档330内的每个对象的结构,并且元数据部分用来创建本身存储于文档元数据数据库150中的索引。
图4呈现在本发明的方法和系统中运用的过程的工作流程图。根据一个实施例,使用MEM文件处理器500来处理来自电子文档源100的原生电子文档。存储器文件由每个平台稍有不同地处置,但是从抽象观点来看,它们是相同事物。存储器文件允许打开文件、但是将它视为如同它都位于存储器中。这允许用户仅对在具体位置的数据“字节”寻址。操作系统处置以对于应用透明的方式将数据从辅助存储设备移入存储器。
文件拆取器520可以创建文档的临时副本200(图2)。使用的文件拆取器520的特定类型基于处理的文档的格式,该格式又由文件类型确定器120确定。如先前讨论的那样,使用不同文件拆取器和类型确定器增强数据获取和分析的速率和质量。
文件拆取器520从文档di提取数据并且在共享存储器缓冲器150(图5)内为数据的复本编索引。在缓冲器中被编索引的特定数据包括但不限于每个文档di的元数据530、内部文件/对象映射525和从处理的文档di提取的任何文本。文件拆取器然后针对文档550内的链接对象或者嵌入对象dk测试。如果找到,则系统始于文件类型确定120来执行递归提取和记录。文档及其链接对象或者嵌入对象——如果有——的记录被单独地编索引,以除了保留每个原生文档di的物理顺序之外还使得能够精确获取正在处理的文档内包含的数据和增加数据的查全。系统可以通过根据终端用户的要求将用户设置用于从文件的更法庭辩论级信息恢复来捕获附加元数据(例如修正信息、二元数据流)。
图5是具体说明从嵌入对象或者链接对象dk提取元数据和文本数据的工作流程的框图。在图5中,针对嵌入对象或者链接对象550检查来自电子文档源100的每个原生文档。如果找到表示为可视表示或者内嵌对象的嵌入或者链接对象dk——在图5中表示为备选表示523——则从嵌入对象或者链接对象提取所有文本数据和元数据。如果嵌入对象没有备选表示,则也可以提取和内嵌放置(可选)完整文本。
如果备选表示是仅图像格式,则系统可以将光学字符识别526应用于嵌入对象或者链接对象的备选表示523。其它数据对象、比如音频文件可以具有以相似方式使用语音到文本技术来提取的文本。光学字符识别(“OCR”)是将手写、打字或者印刷文本的扫描图像机械或者电子翻译成机器编码文本。嵌入对象或者链接对象的备选表示523的OCR允许用户搜寻单词或者短语、压缩数据存储、显示或者印刷无扫描非自然成分(artifact)的副本,并且应用诸如机器翻译、文本到语音和文本挖掘之类的技术。
系统的方法还能够确定在链接或者嵌入对象dk 523(图5)的可视表示524中是否存在可提取文本522。可视表示是连接或者嵌入对象523的在原生文档di中可由用户查看的部分。如果标识可提取文本,则系统用对应内嵌文本替换可视表示524。用内嵌文本替换可视表示允许对电子文档源100中的原生文档执行数据分析、比如邻近或者概念搜索。在替换之后,重复该过程直至已经捕获用于原生文档和任何嵌入或者链接对象523的所有文本以及元数据和对象映射525。随着可视表示524被替换并且原生文档di被处理以用于光学字符识别,处理的文档560现在准备好用于存储于缓冲器150中。
图6A是表示如与当前发明的方法和系统的处理相比的使用商业上可用ECA工具、比如dtSearchNuixAccessData和OracleOutside In Technology来处理的文档的框图。在这一示例中,文档涉及针对汽车制造商的故障安全带诉讼。在“安全带”的十个单词内针对“公司执行总监”执行搜索查询。使用当前可用ECA处理工具,如102中所示不会显示可视表示524,或者将如103所示用图片(例如对象的位图表示)替换它。如果没有显示可视表示524或者处理工具不能提取图片内嵌入的对象523内的文本,并且将仅返回文档102和103。
即使处理工具能够提取链接对象或者嵌入对象523中的文本,也仍然不可以返回文档,因为未恰当映射来自电子文档源100的电子邮件A的可视表示524的文本的物理位置。例如,如果嵌入对象的文本放置于文档的末尾或者作为独立的记录放置,则邻近搜索不会获得结果,因为将已经改变在两个短语之间的线性距离。将用从链接对象或者嵌入对象523提取的所有未格式化文本来替换可视表示524的文本。由于现在由从链接对象或者嵌入对象524提取的文本而不是来自电子文档源100的电子邮件A的文本包围可视表示524的文本,所以在“安全带”的十个单词内针对“公司执行总监”执行的搜索查询并未返回电子邮件A的已处理版本101。
相比之下,使用本发明的系统和方法,返回如104中所示电子邮件A的已处理版本。由于本发明的方法由于对象映射525而在正确物理位置中用对应内嵌文本来替换可视表示524,所以现在在应用适当搜索查询之后返回电子邮件A 104。
另外,也保留在链接对象或者嵌入对象523及其父之间的关系。这允许审查者查看提供关于安全带测试的附加信息的链接对象或者嵌入对象523(图6B)。在这一情况下,可视表示524提示“我方机型”具有比“所有其它”(50)更少(5)的安全带故障。然而链接或者嵌入对象523提供附加信息、即仅测试少数“我方机型”汽车,并且“我方机型”也具有实质上更高的故障率。这一信息可以确定试验的结果并且表明需要扩展超出本领域当前已知的线性编索引技术。
在图6C中示出用本发明的方法和系统获得的结果的另一示例。
本发明的方法允许如图7中所示内嵌文本提取。系统对电子文档di执行提取。读取600并且按文档章节拆分601文档di的文本范围。如果检测到602更多章节和内容,则该提取按文档章节拆分文本范围603。如果检测到文本,则向文本缓冲器604追加文本。如果检测到605嵌入对象dk,则系统处理对象并且向文本缓冲器604中追加任何嵌入文本。
本发明的方法也能够向文本缓冲器追加文本(图8)。在这一实施例中,文档或者文件类型确定器120确定是否支持文件类型700,并且如果支持,则处理文档。如果处理701检测到平面文本文件格式,则平面文本文件提取器702提取文本,该文本转而被追加到文本缓冲器703。如果处理没有检测到平面文本文件格式,则针对文本数据来处理文档704,如果检测到平面文本文件格式,则向文本缓冲器追加文本数据。如果系统没有检测到平面文本文件格式或文本数据,则针对任何嵌入对象处理文档705。如果检测到嵌入对象,则提取706并且向文本缓冲器追加707嵌入对象的文本。如果处理没有检测到嵌入对象,则本发明确定图像类型708、并且针对文本测试图像709,并且如果未检测到文本则用光学字符识别710来处理图像或者执行图像的提取711,并且向文本缓冲器712追加从提取中恢复的任何文本。
具体示例
以下示例举例说明本发明的各种实施例、但是并不限制本发明。
按文件类型的文本提取算法
术语
1.1 总体信息
1.1.4 The Excel97-2003格式是具有主要流的结构化存储文件,该主要流代表用于嵌入、中枢表高速缓存、修正日志等的工作手册和补充流/存储装置。它与5/95不同在于它为完整Unicode功能。
1.2 提取算法
1.2.1 找到并读取SST(仅97-2003)。这加载可以由单元使用的串集合。
1.2.2 找到并读取BoundSheet信息。这告诉我们工作表边界在何处并且告诉我们工作表名称。
1.2.3 找到并读取全局格式和XF记录(除了4W之外)。这告诉我们单元值如何获得格式化。
1.2.4 找到绘图信息(仅97-2003)。
1.2.5 找到第一工作表的开头(4W-2003)或者BOF(2-4)。
1.2.6 确定表名称(5-2003)或者找到表名称(4W)。
1.2.7 追加表名称。
1.2.8 加载用于这一表(仅4W)的格式和XF记录。
1.2.9 找到并追加用于该表的页眉。
1.2.10 找到并追加用于表的单元内容。对于图表表,提取非默认图表信息。对于非图表表,使用SST来提取并且使用XF和先前找到的格式记录来格式化单元内容。按交叉、然后向下顺序追加内容以有助于搜索。
1.2.11 找到并追加用于图表表的页脚。
1.2.12 找到并追加用于图表表的文本框。文本框浮置于单元上方,因此在单元内容之后而不是在中间追加它们以有助于搜索。注意许多类型的对象在这一意义上符合为文本框:评论、小配件、图表、文本框。
1.2.13 找到并追加用于表的形状(绘图)。形状浮置于单元上方,因此在单元内容之后而不是在中间追加它们以有助于搜索。绘图可以直接包含Escher记录中的文本指令。如果是这样,则提取和追加该文本。
1.2.14 找到并追加用于表的嵌入。嵌入浮置于单元上方,因此在单元内容之后而不是在中间追加它们以有助于搜索。在ImageData(2-5/95)或者MsoDrawing记录中找到嵌入预览图片。预览图片可以是在WMF、PICT或者EMF格式中的元文件。如果是这样,则提取预览图片文本作为用于嵌入的文本,从而按照嵌入的视图在表中显现的那样来表示它,而不是提取完全的嵌入内容。
1.2.15 针对每个连续工作表重复步骤1.2.6-1.2.14。
1.2.16 找到并追加全局外部单元高速缓存。这是来自当前文件内所用外部文件的单元值的高速缓存。
1.2.17 找到并追加中枢高速缓存。这些是工作手册的中枢表中所用值的高速缓存。
2.1 总体信息
2.1.1 Excel2007-2010文件格式是具有主要文件的ZIP包,该主要文件代表用于每个工作表、中枢高速缓存、外部高速缓存等的工作手册和补充文件。
2.2 提取算法
2.2.1 读取工作手册。这告诉我们关于工作表和其它部分。
2.2.2 读取SST。这加载可以由单元使用的串集合。
2.2.3 读取样式。这告诉我们单元值如何获得格式化。
2.2.4 找到第一工作表。
2.2.5 追加表的名称
2.2.6 找到和追加用于表的页眉。
2.2.7 找到和追加用于表的单元内容。对于图表表,提取非默认图表信息。对于非图表表,使用SST来提取单元内容,并且使用先前找到的样式信息来格式化单元内容。按“交叉然后向下”的顺序追加内容以有助于搜索。
2.2.8 找到和追加用于表的页脚。
2.2.9 找到和追加用于表的文本框。文本框浮置于单元上方,因此在单元内容之后而不是在中间追加它们以有助于搜索。注意许多类型的对象在这一意义上符合为文本框:评论、小配件、图表、文本框。
2.2.10 找到和追加用于表的形状(绘图)。形状浮置于单元上方,因此在单元内容之后而不是在中间追加它们以有助于搜索。绘图可以直接包含文本指令。如果是这样,则提取和追加该文本。
2.2.11 找到和追加用于表的嵌入。嵌入浮置于单元上方,因此在单元内容之后而不是在中间追加它们以有助于搜索。将嵌入预览图片存储为特殊绘图类型。预览图片可以是在WMF、EMF或者PDF格式中的元文件。如果是这样,则提取预览图片文本作为用于嵌入的文本,从而如嵌入的视图在表上所显现的那样来表示它而不是提取完全的嵌入内容。
2.2.12 针对每个连续工作表重复步骤2.2.5-1.2.11。
2.2.13 追加外部单元高速缓存。这些是来自当前文件内所用外部文件的单元值的高速缓存。
2.2.14 追加中枢高速缓存。这些是工作手册的中枢表中所用值的高速缓存。
3.1 总体信息
3.1.2 在“形状”中存储PowerPoint文档中的所有内容。形状可以是文本框、绘图或者嵌入。将嵌入预览图片存储为图片流中的图片。预览图片可以是在WMF、PICT或者EMF格式中的元文件。如果是这样,则提取预览图片文本作为用于嵌入的文本,从而如嵌入的视图在幻灯片上显现的那样来表示它,而不是提取完全的嵌入内容。也可以将非嵌入图片存储为元文件并且相似地提取非嵌入图片。
3.2 提取和算法
3.2.1 找到绘图信息。
3.2.2 找到幻灯片页脚信息。
3.2.3 找到备注页眉和页脚信息。
3.2.4 找到备注母版。
3.2.5 找到和追加非默认标题母版幻灯片(master slide)内容。
3.2.6 找到和追加非默认幻灯片母版(slide master)幻灯片内容。
3.2.7 找到和追加非默认备注母版幻灯片内容。
3.2.8 找到第一幻灯片。
3.2.9 追加用于幻灯片的备注页眉。
3.2.10 追加幻灯片内容。从左上到右下的块次序追加内容以有助于搜索。幻灯片内容包括来自母版幻灯片的继承内容。
3.2.11 追加用于幻灯片的幻幻灯片页脚。
3.2.12 追加用于幻灯片的备注幻灯片内容。
3.2.13 追加备注页脚。
3.2.14 追加用于幻灯片的评论。
3.2.15 针对每个连续幻灯片重复步骤3.2.9-3.2.14。
4.1 总体信息
4.1.1 PowerPoint2007-2010文件格式是具有主要文件的ZIP包,该主要文件代表用于每个幻灯片、幻灯片母版、嵌入等的演示和补充文件。
4.1.2 在“形状”中存储PowerPoint文档中的所有内容。形状可以是文本框、绘图或者嵌入。存储嵌入预览图片为ZIP包中的独立图片文件。预览图片可以是在WMF、PDF或者EMF格式中的元文件。如果是这样,则提取预览图片文本作为用于嵌入的文本,从而如嵌入的视图在幻灯片上显现的那样表示它,而不是提取完全的嵌入内容。也可以将非嵌入图片存储为元文件并且相似地提取非嵌入图片。
4.2 提取和算法
4.2.1 读取演示。这告诉我们关于幻灯片和其它部分。
4.2.2 读取幻灯片。
4.2.3 读取幻灯片母版。这告诉我们关于继承内容和布局。
4.2.4 读取备注母版。这告诉我们关于备注页面继承内容和布局。
4.2.5 读取评论作者信息。
4.2.6 读取幻灯片布局信息。这告诉我们关于继承内容和布局。
4.2.7 找到并追加非默认幻灯片母版幻灯片内容。
4.2.8 找到并追加非默认幻灯片布局幻灯片内容。
4.2.9 找到并追加非默认备注母版幻灯片内容。
4.2.10 找到第一幻灯片。
4.2.11 追加用于幻灯片的备注页眉。
4.2.12 追加幻灯片内容。以左上到右下的块次序来追加内容以有助于搜索。幻灯片内容包括来自母版幻灯片和布局幻灯片的继承内容。
4.2.13 追加用于幻灯片的幻灯片页脚。
4.2.14 追加用于幻灯片的备注母版内容。
4.2.15 追加备注页脚。
4.2.16 追加针对幻灯片的评论。
4.2.17 针对每个连续幻灯片重复步骤4.2.10-4.2.15。
5.1 总体信息
5.1.1 Word97-2003格式是具有主要流的结构化存储文件,该主要流代表用于指针表、嵌入、图片等的文档和补充流/存储装置。
5.1.2 将Word文档中的内容存储为具有用于图片、文本框、嵌入、字段和其它对象的占位符(placeholder)的文本内容延续(run)。将嵌入预览图片存储为数据流中的图片。预览图片可以是在WMF、PICT或者EMF格式中的元文件。如果是这样,则提取预览图片文本作为用于嵌入的文本,从而如嵌入的视图在页面上显现的那样表示它,而不是提取完全的嵌入内容。也可以将非嵌入图片存储为元文件并且相似地提取非嵌入图片。
5.1.3 与内容并行地存储格式化延续。格式化信息用来标记修正并且提供关于嵌入的补充信息。
5.2 提取算法
5.2.1 获得主要文档文本范围。
5.2.2 按文档章节拆分文档文本范围。找到第一章节。
5.2.3 找到和追加用于文档的第一章节的页眉。
5.2.4 追加章节内容。
5.2.5 找到和追加用于文档的章节的页脚。
5.2.6 针对每个连续章节重复步骤5.2.3-5.2.5。
5.2.7 找到和追加用于文档的脚注分离符和脚注。
5.2.8 找到和追加用于文档的尾注分离符和尾注。
5.2.9 找到和追加评论。
6.1 总体信息
6.1.2 将Word文档中的内容存储为具有用于图片、文本框、嵌入、字段和其它对象的占位符的文本内容延续。将嵌入预览图片存储为ZIP包中的独立图片文件。预览图片可以是在WMF、PDF或者EMF格式中的元文件。如果是这样,则提取预览图片文本作为用于嵌入的文本,从而如嵌入的视图在页面上显现的那样表示它,而不是提取完全的嵌入内容。也可以将非嵌入图片存储为元文件,并且相似地提取非嵌入图片。
6.1.3 与内容一致地存储格式化延续。格式化信息用来标记修正。
6.2 提取算法
6.2.1 读取评论。
6.2.2 读取尾注。
6.2.3 读取脚注。
6.2.4 读取设置。
6.2.5 读取评论作者信息。
6.2.6 读取页眉和页脚。
6.2.7 追加用于文档的章节的页眉。
6.2.8 追加章节内容。
6.2.9 追加用于文档的章节的页脚。
6.2.10 针对每个连续章节重复步骤6.2.7-6.2.9。
6.2.11 追加用于文档的脚注分离符和脚注。
6.2.12 追加用于文档的尾注分离符和尾注。
6.2.13 追加评论。
7.RTF
7.1 总体信息。
7.1.1 RTF格式是具有内嵌的标记(in-line markup)、字段和嵌入的纯文本文件。与嵌入内嵌地存储嵌入预览图片。预览图片可以是在WMF、PICT或者EMF格式中的元文件。如果是这样,则提取预览图片文本作为用于嵌入的文本,从而如嵌入的视图在页面上显现的那样表示它,而不是提取完全的嵌入内容。也可以将非嵌入图片存储为元文件并且相似地提取非嵌入图片。
7.2 提取算法
7.2.1 将RTF解析成中间结构以允许容易遍历包含内容或者标记的节点。
7.2.2 按文档章节拆分文档。找到第一章节。
7.2.3 找到和追加用于文档的章节的页眉。
7.2.4 追加章节内容。
7.2.5 找到和追加用于文档的章节的页脚。
7.2.6 针对每个连续章节重复步骤7.2.3-7.2.5。
8.PST/MSG RTF项。
8.1 一般信息
8.1.1 PST和MSG项可以是纯文本、HTML或者RTF。RTF项可以包含内嵌嵌入。将嵌入预览图片存储为嵌入(用于基于结构化存储的嵌入)中的流。预览图片可以是处于WMF或者EMF格式中的元文件。如果是这样,则提取并且向其中找到关联嵌入占位符的RTF中重新插入预览图片文本。然后提取预览图片文本作为用于嵌入的文本,从而如嵌入的视图在页面上显现的那样表示它,而不是提取完全的嵌入内容。
8.2 提取算法
8.2.1 从PST或者SMG项提取RTF正文。
8.2.2 将RTF解析成中间结构以允许容易遍历包含内容或者标记的节点。
8.2.3 向RTF中插入电子邮件(或者其它项类型)页眉。这是必要的,因为仅将正文存储为RTF,但是完整项包括在显示时“在运行中”添加的页眉。
8.2.4 找到每个嵌入占位符并且向RTF中插入嵌入预览图片。
8.2.5 如在章节7中描述的那样执行完整RTF文本提取。
分析来自安然诉讼的样本文档
使用本发明的系统和方法来筛选文件“Hydro-Thermal.doc”中的文本。在针对安然的破产和刑事/民事诉讼程序中公开这一文档。EDRM协会(http://www.edrm.org)收集文档集合并且使它作为范例可用。图9示出使用本发明的方法和系统在MicrosoftWord文档内的内嵌的提取文本。很明显,嵌入文本“Northwest Power Pool”的可视标识存在于在Word文档的正文中的两段文本之间插入的链接或者嵌入对象中。本发明的方法能够用对应的内嵌文本替换这一嵌入文本的可视表示,并且因此利用对象映射来保留在嵌入对象的文本与周围文本之间的空间关系。因而,对包括“Hydro-Thermal.doc”文件的电子文档源执行的作为“(heavy run-off months)w/20(Northwest Power Pool)”或者本领域利用的任何其它可接受格式由用户录入的、在“Northwest Power Pool”的二十个单词内的查询或者邻近搜索“heavy run-off months”响应于用户查询来返回文件。
通过比较,图10提供如由第三方软件应用、比如dtSearch(www.dtsearch.com)处理的相同“Hydro-Thermal.doc”文档的表示。嵌入对象的可视表示并不存在于原先在文档中找到它的地方。因此,跨文档和其中嵌入的对象的、使用空间关系的任何搜索(邻近和短语搜索)并不针对获取词“heavy run-off months”和“Northwest PowerPool”而造成邻近搜索的命中。此外,在运用dtSearch和上文结合图9描述的相同邻近搜索的试验查询中,dtSearch完全未返回针对这一嵌入对象的任何数据。
图11提供另一表示,该表示图示运用本发明的方法和系统的试验搜索的一个结果,该搜索跨越文档和其中嵌入的文本而使用邻近搜索,并且反馈七(7)个文档。
本发明的范围不受上文已经具体示出和描述的内容限制。本领域技术人员将认识到描绘的材料、配置、构造和尺度示例有适当备选。在本发明的描述中引用和讨论包括专利和各种公开文献的许多参考文献。提供对这样的参考文献的引用和讨论仅为了澄清本发明的描述而并非承认任何参考文献是这里描述的本发明的现有技术。在说明书中引用和讨论的所有参考文献通过完全引用而结合于此。本领域普通技术人员将想到这里描述的内容的变化、修改和其它实现方式而未脱离本发明的精神实质和范围。尽管已经示出和描述本发明的某些实施例,但是本领域技术人员将清楚可以进行改变和修改而未脱离本发明的精神实质和范围。赋予在前文描述和附图中阐述的内容仅作为示例而非限制。
Claims (30)
1.一种用于为一个或者多个文档di编索引的方法,包括以下步骤:
(a)确定所述一个或者多个文档di中的每个文档的文件类型fi;
(b)执行从所述一个或者多个文档di对数据dai的提取ei;
(c)针对一个或者多个嵌入对象dk测试从文档di的所述提取ei恢复的所述数据dai,并且如果检测到一个或者多个嵌入对象dk,则向缓冲器追加来自所述一个或者多个嵌入对象dk的数据dai,其中所述数据存在于所述一个或者多个文档di中,以及
(d)针对所述一个或者多个文档di递归地重复步骤(a)到(c)直至在所述一个或者多个文档di中未检测到附加的嵌入对象dk。
2.根据权利要求1所述的方法,其中在所述一个或者多个文档di中可视地表示所述数据dai。
3.根据权利要求2所述的方法,其中所述数据dai是文本。
4.根据权利要求2所述的方法,其中所述数据dai是可视信息。
5.根据权利要求2所述的方法,其中所述数据dai是图形信息。
6.根据权利要求1所述的方法,其中所述嵌入对象dk包含附加的嵌入文档dk+n,其中n是代表在dk中相继嵌入的对象级数1的从1到n的整数。
7.根据权利要求6所述的方法,还包括:针对所有所述嵌入对象dk递归地重复步骤(a)到(d),并且如果在dk中检测到至少一个附加的嵌入对象,则执行对所述附加的嵌入对象的提取,直至在dk中未检测到附加的嵌入对象。
8.根据权利要求7所述的方法,其中用分级关系嵌入文档,所述分级关系由在di中嵌入的dk、在dk中嵌入的dk+1、在dk+1中嵌入的dk+2到在dk+(n-1)中嵌入的dk+n来表示。
9.根据权利要求1所述的方法,其中所述一个或者多个文档di的文件类型可由文件类型确定器来标识。
10.根据权利要求1所述的方法,还包括生成索引i,其中所述索引表示在所述文档di与所述嵌入对象dk之间的至少一个关系集合,并且其中所述文档di和所述嵌入对象dk具有与所述文档di和所述嵌入对象dk中的每个文档和嵌入对象相关联的至少一个个体标识符idi或者idk。
11.根据权利要求1所述的方法,其中相对于在文档di中的文本在内容和位置上保留di内的dk的可视表示的文本tk。
12.根据权利要求1所述的方法,其中针对每个文件类型fi存在个体的对应提取ei。
13.一种用于审核数据的计算机系统,所述计算机系统包括:
(a)多个电子文档的源;
(b)文件拆取器,用于从来自所述多个电子文档的至少一个文档di提取数据;
(i)其中所述文件拆取器针对链接对象或者嵌入对象dk来测试每个文档di;
(ii)其中如果检测到附加的链接对象或者嵌入对象dk,则所述文件拆取器递归地重复步骤(i);以及
(c)索引i,包括来自所述文档di和对象dk的数据,其中所述索引保留在di与dk之中的分级关系;di和dk各自具有至少一个个体标识符;以及通过使用对象映射m来保留di内的dk的可视表示。
14.根据权利要求13所述的计算机系统,其中在计算机可读存储介质上的缓冲器中存储所述索引,所述计算机可读存储介质能够接收针对具体数据特性的请求,并且标识具有那些特性的文档dk或者嵌入对象dk。
15.根据权利要求13所述的计算机系统,还包括库,所述库容纳分别用于文档di和对象dk的所有文件类型fi和fk的提取ei的方法。
16.根据权利要求13所述的计算机系统,其中所述计算机系统用于准备将要结合诉讼审核的文档。
17.根据权利要求13所述的计算机系统,其中所述计算机系统位于通过网络通信的多个服务器、处理器和存储介质内。
18.根据权利要求13所述的计算机系统,其中所述计算机系统包括用于接受用户输入或者显示计算机可读存储介质处理的数据的终端。
19.根据权利要求13所述的计算机系统,其中所述多个电子文档的源经由因特网与所述计算机系统的其他部件通信。
20.根据权利要求13所述的计算机系统,其中从包括文本文件、图像和电子表格的组中选择每个文档di。
21.根据权利要求13所述的计算机系统,其中从包括文本文件、图像和电子表格的组中选择每个嵌入对象dk。
22.根据权利要求13所述的计算机系统,还包括能够接收至少一个文档di、从所述文档提取数据、并且针对链接对象或者嵌入对象递归地搜索所述文档的第一处理器。
23.根据权利要求22所述的计算机系统,还包括能够包含所有提取数据并且使缓冲器的特征在于用于独立地编索引的每个链接对象或嵌入对象的数据的第一计算机可读存储介质,其中保留每个链接对象或者嵌入对象和所述文档di的内容、位置和文本关系中的每一个。
24.根据权利要求22所述的计算机系统,还包括与所述计算机可读存储介质通信的第二处理器,所述第二处理器能够接收针对具体数据特性的请求并且标识具有那些特性的所述文档di或者嵌入对象。
25.根据权利要求22所述的计算机系统,还包括第二计算机可读存储介质,所述第二计算机可读存储介质包含用于所有文件类型的所有个体程序的库。
26.根据权利要求22所述的计算机系统,其中所述第二计算机可读存储介质与所述处理器通信。
27.根据权利要求22所述的计算机系统,其中所述计算机系统用于在预期诉讼时准备文档。
28.根据权利要求22所述的计算机系统,其中所述计算机系统位于通过网络通信的多个服务器、处理器和计算机可读存储介质内。
29.根据权利要求22所述的计算机系统,其中所述计算机系统包括用于接受用户输入或者显示所述第一计算机可读存储介质和所述第二计算机可读存储介质处理的提取数据的终端。
30.根据权利要求22所述的计算机系统,其中所述多个电子文档的源经由因特网与所述计算机系统的其他部件通信。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US39022110P | 2010-10-06 | 2010-10-06 | |
| US61/390,221 | 2010-10-06 | ||
| US201161530212P | 2011-09-01 | 2011-09-01 | |
| US61/530,212 | 2011-09-01 | ||
| PCT/US2011/055165 WO2012048158A1 (en) | 2010-10-06 | 2011-10-06 | System and method for indexing electronic discovery data |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN103229167A true CN103229167A (zh) | 2013-07-31 |
Family
ID=45928134
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN2011800568870A Pending CN103229167A (zh) | 2010-10-06 | 2011-10-06 | 用于为电子发现数据编索引的系统和方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (4) | US8924395B2 (zh) |
| EP (1) | EP2625655A4 (zh) |
| CN (1) | CN103229167A (zh) |
| WO (1) | WO2012048158A1 (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105765559A (zh) * | 2013-09-09 | 2016-07-13 | 尤奈特戴克斯公司 | 交互式案件管理系统 |
| CN111241096A (zh) * | 2020-01-07 | 2020-06-05 | 中孚安全技术有限公司 | 一种excel文档的文本提取方法、系统、终端及存储介质 |
Families Citing this family (44)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8359365B2 (en) | 2008-02-11 | 2013-01-22 | Nuix Pty Ltd | Systems and methods for load-balancing by secondary processors in parallel document indexing |
| US9928260B2 (en) * | 2008-02-11 | 2018-03-27 | Nuix Pty Ltd | Systems and methods for scalable delocalized information governance |
| US9785700B2 (en) | 2008-02-11 | 2017-10-10 | Nuix Pty Ltd | Systems and methods for load-balancing by secondary processors in parallelized indexing |
| CN103229167A (zh) | 2010-10-06 | 2013-07-31 | 星汇数据解决方案公司 | 用于为电子发现数据编索引的系统和方法 |
| US20120284276A1 (en) * | 2011-05-02 | 2012-11-08 | Barry Fernando | Access to Annotated Digital File Via a Network |
| US9244990B2 (en) | 2011-10-07 | 2016-01-26 | Oracle International Corporation | Representation of data records in graphic tables |
| JP5526209B2 (ja) * | 2012-10-09 | 2014-06-18 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
| US9069857B2 (en) * | 2012-11-28 | 2015-06-30 | Microsoft Technology Licensing, Llc | Per-document index for semantic searching |
| US20140365386A1 (en) * | 2013-06-05 | 2014-12-11 | David W. Carstens | Intellectual Property (IP) Analytics System and Method |
| CN103391196A (zh) * | 2013-07-04 | 2013-11-13 | 黄铁军 | 一种资产数字认证方法与设备 |
| WO2015156943A1 (en) * | 2014-03-10 | 2015-10-15 | Aravind Musuluri | Augmenting search results |
| US20150254791A1 (en) * | 2014-03-10 | 2015-09-10 | Fmr Llc | Quality control calculator for document review |
| US8862646B1 (en) | 2014-03-25 | 2014-10-14 | PlusAmp, Inc. | Data file discovery, visualization, and importing |
| WO2015157188A1 (en) * | 2014-04-06 | 2015-10-15 | Aravind Musuluri | System and method for enhancing user experience in a search environment |
| US10826930B2 (en) * | 2014-07-22 | 2020-11-03 | Nuix Pty Ltd | Systems and methods for parallelized custom data-processing and search |
| US11200249B2 (en) | 2015-04-16 | 2021-12-14 | Nuix Limited | Systems and methods for data indexing with user-side scripting |
| US9953384B2 (en) * | 2015-04-28 | 2018-04-24 | Ipro Tech, Llc | Automated digital discovery with current streaming |
| US20170060986A1 (en) * | 2015-08-31 | 2017-03-02 | Shine Security Ltd. | Systems and methods for detection of content of a predefined content category in a network document |
| CN105117235A (zh) * | 2015-09-18 | 2015-12-02 | 四川效率源信息安全技术股份有限公司 | 一种重组Office文件的方法 |
| US10459900B2 (en) * | 2016-06-15 | 2019-10-29 | International Business Machines Corporation | Holistic document search |
| US20170364492A1 (en) * | 2016-06-20 | 2017-12-21 | Machine Learning Works, LLC | Web content enrichment based on matching images to text |
| US10062134B2 (en) * | 2016-06-24 | 2018-08-28 | The Nielsen Company (Us), Llc | Methods and apparatus to perform symbol-based watermark detection |
| US10430098B2 (en) * | 2016-07-08 | 2019-10-01 | Rtbrick, Inc. | System and methods for defining object memory format in memory and store for object interactions, manipulation, and exchange in distributed network devices |
| AU2017320476B2 (en) | 2016-09-02 | 2021-10-07 | FutureVault Inc. | Systems and methods for sharing documents |
| WO2018039773A1 (en) | 2016-09-02 | 2018-03-08 | FutureVault Inc. | Automated document filing and processing methods and systems |
| US20180107723A1 (en) * | 2016-10-13 | 2018-04-19 | International Business Machines Corporation | Content oriented analysis of dumps |
| US10832000B2 (en) * | 2016-11-14 | 2020-11-10 | International Business Machines Corporation | Identification of textual similarity with references |
| US11158012B1 (en) | 2017-02-14 | 2021-10-26 | Casepoint LLC | Customizing a data discovery user interface based on artificial intelligence |
| US10740557B1 (en) | 2017-02-14 | 2020-08-11 | Casepoint LLC | Technology platform for data discovery |
| US11275794B1 (en) | 2017-02-14 | 2022-03-15 | Casepoint LLC | CaseAssist story designer |
| US10452631B2 (en) | 2017-03-15 | 2019-10-22 | International Business Machines Corporation | Managing large scale association sets using optimized bit map representations |
| US20180276206A1 (en) * | 2017-03-23 | 2018-09-27 | Hcl Technologies Limited | System and method for updating a knowledge repository |
| US11687823B2 (en) | 2017-08-01 | 2023-06-27 | International Business Machines Corporation | Automated switching of a strategy for selection of data elements to be labeled based on labeling progress |
| US10846573B2 (en) | 2018-07-31 | 2020-11-24 | Triangle Digital Ventures Ii, Llc | Detecting, redacting, and scoring confidential information in images |
| US10347293B1 (en) | 2018-07-31 | 2019-07-09 | Droplr, Inc. | Detecting, redacting, and scoring confidential information in video |
| US11093690B1 (en) * | 2019-07-22 | 2021-08-17 | Palantir Technologies Inc. | Synchronization and tagging of image and text data |
| US20220051357A1 (en) * | 2020-08-11 | 2022-02-17 | Rocket Lawyer Incorporated | System and method for attorney-client privileged digital evidence capture, analysis and collaboration |
| US11587187B2 (en) * | 2021-02-19 | 2023-02-21 | Xendee Corporation | Robust and fast design of energy systems considering intra-hour variability |
| US11520844B2 (en) * | 2021-04-13 | 2022-12-06 | Casepoint, Llc | Continuous learning, prediction, and ranking of relevancy or non-relevancy of discovery documents using a caseassist active learning and dynamic document review workflow |
| US12051259B2 (en) * | 2021-05-11 | 2024-07-30 | Jpmorgan Chase Bank, N.A. | Method and system for processing subpoena documents |
| CN113392070B (zh) * | 2021-07-07 | 2024-05-14 | 百果园技术(新加坡)有限公司 | 在线文档管理方法、装置、系统、设备及存储介质 |
| KR20230023460A (ko) * | 2021-08-10 | 2023-02-17 | 삼성전자주식회사 | 어플리케이션에 따라 ai 기반으로 영상을 재생하는 전자 장치 및 이에 의한 영상 재생 방법 |
| US12124798B2 (en) * | 2021-08-30 | 2024-10-22 | Kyocera Document Solutions Inc. | Method and system for obtaining similarity rates between electronic documents |
| US12450215B1 (en) * | 2024-05-29 | 2025-10-21 | Crowdstrike, Inc. | Scalable key value storage in a distributed storage system |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1398377A (zh) * | 2000-02-04 | 2003-02-19 | 美国联机股份有限公司 | 提供和呈现可定标web页面的系统和处理 |
| CN1783091A (zh) * | 2004-12-01 | 2006-06-07 | 捷讯研究有限公司 | 在文档中查找搜索串并在移动通信设备上查看的方法 |
| US20060225001A1 (en) * | 2005-03-30 | 2006-10-05 | Sylthe Olav A | Method for requesting and viewing a preview of a table attachment on a mobile communication device |
| US20070208669A1 (en) * | 1993-11-19 | 2007-09-06 | Rivette Kevin G | System, method, and computer program product for managing and analyzing intellectual property (IP) related transactions |
| US20080065842A1 (en) * | 2002-12-20 | 2008-03-13 | Bea Systems, Inc. | System and Method for Memory Leak Detection in a Virtual Machine Environment |
Family Cites Families (209)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2066559A1 (en) * | 1991-07-29 | 1993-01-30 | Walter S. Rosenbaum | Non-text object storage and retrieval |
| EP0698242A1 (en) | 1993-05-10 | 1996-02-28 | Apple Computer, Inc. | System for automatically determining the status of contents added to a document |
| JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
| US5825357A (en) | 1993-12-13 | 1998-10-20 | Microsoft Corporation | Continuously accessible computer system interface |
| US5606609A (en) | 1994-09-19 | 1997-02-25 | Scientific-Atlanta | Electronic document verification system and method |
| US5664208A (en) | 1995-05-16 | 1997-09-02 | Apple Computer, Inc. | Methods and apparatuses for seamless compound document processing |
| US5740455A (en) | 1995-05-16 | 1998-04-14 | Apple Computer, Inc. | Enhanced compound document processing architectures and methods therefor |
| US6230173B1 (en) | 1995-07-17 | 2001-05-08 | Microsoft Corporation | Method for creating structured documents in a publishing system |
| US5640579A (en) | 1995-07-24 | 1997-06-17 | Microsoft Corporation | Method and system for logically partitioning a view of a document object from a frame in which the document object is displayed |
| US6246410B1 (en) | 1996-01-19 | 2001-06-12 | International Business Machines Corp. | Method and system for database access |
| US6393497B1 (en) | 1998-03-20 | 2002-05-21 | Sun Microsystems, Inc. | Downloadable smart proxies for performing processing associated with a remote procedure call in a distributed system |
| US6134601A (en) | 1996-06-17 | 2000-10-17 | Networks Associates, Inc. | Computer resource management system |
| US5855005A (en) | 1996-06-24 | 1998-12-29 | Insurance Company Of North America | System for electronically auditing exposures used for determining insurance premiums |
| US6373502B1 (en) | 1996-07-01 | 2002-04-16 | Sun Microsystems, Inc. | Method and apparatus for facilitating popup links in a hypertext-enabled computer system |
| US5859973A (en) | 1996-08-21 | 1999-01-12 | International Business Machines Corporation | Methods, system and computer program products for delayed message generation and encoding in an intermittently connected data communication system |
| RU2284055C2 (ru) | 1996-11-27 | 2006-09-20 | Дайболд, Инкорпорейтед | Устройство и система банковских автоматов |
| US5794039A (en) | 1996-12-18 | 1998-08-11 | Unisys Corp. | Method for abstracting messages of various protocols into objects for storage in a database |
| US6708222B1 (en) | 1997-05-01 | 2004-03-16 | Microsoft Corporation | Method and system for locating enclosing owners of embedded objects |
| JP3788543B2 (ja) | 1997-05-20 | 2006-06-21 | 富士通株式会社 | 会議支援システム及び記録媒体 |
| US6014689A (en) | 1997-06-03 | 2000-01-11 | Smith Micro Software Inc. | E-mail system with a video e-mail player |
| US6604144B1 (en) | 1997-06-30 | 2003-08-05 | Microsoft Corporation | Data format for multimedia object storage, retrieval and transfer |
| US6449659B1 (en) | 1997-07-14 | 2002-09-10 | Microsoft Corporation | System for instance customization with application independent programming of controls |
| JP3774807B2 (ja) | 1997-08-06 | 2006-05-17 | タキオン インコーポレイテッド | 分散型システムとオブジェクトをプレフェッチする方法 |
| US6308206B1 (en) | 1997-09-17 | 2001-10-23 | Hewlett-Packard Company | Internet enabled computer system management |
| US6163779A (en) | 1997-09-29 | 2000-12-19 | International Business Machines Corporation | Method of saving a web page to a local hard drive to enable client-side browsing |
| US5956725A (en) | 1997-11-26 | 1999-09-21 | Interanational Business Machines Corporation | Schema mapping to a legacy table with primary and foreign key support |
| GB9725742D0 (en) | 1997-12-04 | 1998-02-04 | Hewlett Packard Co | Object gateway |
| US6185598B1 (en) | 1998-02-10 | 2001-02-06 | Digital Island, Inc. | Optimized network resource location |
| AU2680299A (en) | 1998-02-26 | 1999-09-15 | Sun Microsystems, Inc. | Downloadable smart proxies for performing processing associated with a remote procedure call in a distributed system |
| US6308161B1 (en) | 1998-03-20 | 2001-10-23 | International Business Machines Corporation | System and method for business process space definition |
| US6173316B1 (en) | 1998-04-08 | 2001-01-09 | Geoworks Corporation | Wireless communication device with markup language based man-machine interface |
| US6327624B1 (en) | 1998-05-06 | 2001-12-04 | International Business Machines Corp. | Communication of objects including Java bytecodes between 3270 logical units including Java virtual machines |
| JPH11353146A (ja) | 1998-06-09 | 1999-12-24 | Nec Corp | 印刷処理システム |
| EP1422640A3 (en) | 1998-07-14 | 2014-12-24 | Massachusetts Institute Of Technology | Global document hosting system utilizing embedded content distributed ghost servers |
| US6108703A (en) | 1998-07-14 | 2000-08-22 | Massachusetts Institute Of Technology | Global hosting system |
| US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
| US6489979B1 (en) | 1998-10-30 | 2002-12-03 | International Business Machines Corporation | Non-computer interface to a database and digital library |
| TR200002083T1 (tr) | 1998-11-18 | 2001-02-21 | Saga Software, Inc. | Genişletilebilir dağıtımlı kuruluş uygulama entegrasyon sistemi. |
| AU2217000A (en) | 1998-12-28 | 2000-07-31 | Gemteq Software, Inc. | A method and system for performing electronic data-gathering across multiple data sources |
| US6529949B1 (en) | 2000-02-07 | 2003-03-04 | Interactual Technologies, Inc. | System, method and article of manufacture for remote unlocking of local content located on a client device |
| US7565294B2 (en) * | 1999-05-19 | 2009-07-21 | Digimarc Corporation | Methods and systems employing digital content |
| US6721780B1 (en) | 1999-11-09 | 2004-04-13 | Fireclick, Inc. | Predictive pre-download of network objects |
| US20030200301A1 (en) | 1999-11-10 | 2003-10-23 | Trzcinko Alan P. | Web-based network management system |
| AU2001261817A1 (en) | 2000-02-09 | 2001-08-20 | Sell It 3D | Method for displaying rich content |
| US6947440B2 (en) | 2000-02-15 | 2005-09-20 | Gilat Satellite Networks, Ltd. | System and method for internet page acceleration including multicast transmissions |
| US20050027596A1 (en) | 2000-02-16 | 2005-02-03 | Worm, Inc. | Internet marketing system using a foreign object search in the form of an interactive game |
| WO2001065399A2 (en) | 2000-02-28 | 2001-09-07 | Innuity, Inc. | System and method for generating internet services |
| US7693866B1 (en) | 2000-03-07 | 2010-04-06 | Applied Discovery, Inc. | Network-based system and method for accessing and processing legal documents |
| AU2001247789A1 (en) | 2000-03-22 | 2001-10-03 | Sidestep, Inc. | Method and apparatus for dynamic information connection engine |
| US7240100B1 (en) | 2000-04-14 | 2007-07-03 | Akamai Technologies, Inc. | Content delivery network (CDN) content server request handling mechanism with metadata framework support |
| US6976090B2 (en) | 2000-04-20 | 2005-12-13 | Actona Technologies Ltd. | Differentiated content and application delivery via internet |
| US7213204B1 (en) | 2000-04-27 | 2007-05-01 | International Business Machines Corporation | Method, system, and program for saving object content in a repository file |
| US7120676B2 (en) | 2000-04-28 | 2006-10-10 | Agilent Technologies, Inc. | Transaction configuration system and method for transaction-based automated testing |
| ATE412214T1 (de) | 2000-06-16 | 2008-11-15 | Microsoft Corp | System und verfahren zur interaktiven kommunikation zwischen objekten in einer verteilten rechnerumgebung |
| US6693512B1 (en) | 2000-07-17 | 2004-02-17 | Armstrong World Industries, Inc. | Device location and identification system |
| US6687696B2 (en) | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
| US8219545B2 (en) | 2000-07-27 | 2012-07-10 | Goldhar/Jaffe Technology Development Corporation | Indigenous authentication and searching system and method |
| AU8467401A (en) | 2000-07-28 | 2002-02-13 | Storymail Inc | System, method and computer program product for device, operating system, and network transport neutral secure interactive multi-media messaging |
| US20020116416A1 (en) | 2000-08-11 | 2002-08-22 | Falko Tesch | Methods and systems for processing embedded objects |
| EP1179773A1 (en) | 2000-08-11 | 2002-02-13 | Sun Microsystems, Inc. | Method and apparatus of processing embedded objects |
| US7137127B2 (en) | 2000-10-10 | 2006-11-14 | Benjamin Slotznick | Method of processing information embedded in a displayed object |
| US7577903B1 (en) | 2000-11-01 | 2009-08-18 | Ncr Corporation | Defining a process by a plurality of pages defined in a mark-up language |
| US6795848B1 (en) | 2000-11-08 | 2004-09-21 | Hughes Electronics Corporation | System and method of reading ahead of objects for delivery to an HTTP proxy server |
| US6779151B2 (en) | 2001-01-05 | 2004-08-17 | Microsoft Corporation | Storing objects in a spreadsheet |
| US7072061B2 (en) * | 2001-02-13 | 2006-07-04 | Ariba, Inc. | Method and system for extracting information from RFQ documents and compressing RFQ files into a common RFQ file type |
| US6625613B2 (en) | 2001-02-26 | 2003-09-23 | Motorola, Inc. | Automatic generation of SQL for frame completion |
| US20030187798A1 (en) | 2001-04-16 | 2003-10-02 | Mckinley Tyler J. | Digital watermarking methods, programs and apparatus |
| US7216290B2 (en) | 2001-04-25 | 2007-05-08 | Amplify, Llc | System, method and apparatus for selecting, displaying, managing, tracking and transferring access to content of web pages and other sources |
| WO2002086739A1 (en) | 2001-04-25 | 2002-10-31 | Amplify, Llc. | System, method and apparatus for selecting, displaying, managing, tracking and transferring access to content of web pages and other sources |
| US6772172B2 (en) | 2001-04-27 | 2004-08-03 | Sun Microsystems, Inc. | Method, system, program, and computer readable medium for indexing object oriented objects in an object oriented database |
| US7159014B2 (en) | 2001-06-04 | 2007-01-02 | Fineground Networks | Method and system for efficient and automated version management of embedded objects in web documents |
| US20020184196A1 (en) * | 2001-06-04 | 2002-12-05 | Lehmeier Michelle R. | System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata |
| WO2003012576A2 (en) | 2001-07-27 | 2003-02-13 | Quigo Technologies Inc. | System and method for automated tracking and analysis of document usage |
| GB2378270B (en) | 2001-07-30 | 2005-04-20 | Ibm | Method and apparatus for data transfer across a network |
| AU2002332812A1 (en) | 2001-09-04 | 2003-03-18 | Soft2B Llc | Browser-to-browser, dom-based, peer-to-peer communication with delta synchronization |
| JP4297784B2 (ja) | 2001-10-23 | 2009-07-15 | サムスン エレクトロニクス カンパニー リミテッド | マークアップ文書とavデータとが記録された情報保存媒体、その記録方法、再生方法及び再生装置 |
| US20030146973A1 (en) | 2001-11-09 | 2003-08-07 | Swift David C | 3D stereoscopic enabling methods for a monoscopic application to support 3D stereoscopic imaging |
| US7028296B2 (en) | 2001-12-13 | 2006-04-11 | International Business Machines Corporation | Distributing computer programs to a customer's multiple client computers through a hypertext markup language document distributed to and stored on the customer's network server computer |
| WO2003067391A2 (en) | 2002-02-07 | 2003-08-14 | Craig Mulligan | Method and system for converting legacy data |
| AU2003230551A1 (en) | 2002-02-07 | 2003-09-02 | Shevin Conway | System and method for managing internet transactions |
| WO2003077123A1 (en) | 2002-03-04 | 2003-09-18 | Thought, Inc. | Displayable presentation page |
| EP1349061A1 (en) | 2002-03-27 | 2003-10-01 | Hewlett-Packard Company | Server based hardware control for internet applications |
| AU2002257754A1 (en) | 2002-04-05 | 2003-10-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Object transfer control in a communications network |
| SE521830C2 (sv) | 2002-04-16 | 2003-12-09 | Introibis Ab | Metod för uppdatering av en web-sida |
| US6847966B1 (en) | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
| US7222157B1 (en) | 2002-07-15 | 2007-05-22 | Aol Llc | Identification and filtration of digital communications |
| US7389330B2 (en) | 2002-09-11 | 2008-06-17 | Hughes Network Systems, Llc | System and method for pre-fetching content in a proxy architecture |
| US20070283047A1 (en) | 2002-10-01 | 2007-12-06 | Theis Ronald L A | System and method for processing alphanumeric characters for display on a data processing device |
| US20060166172A1 (en) | 2002-10-01 | 2006-07-27 | May Allegra A | Speaking words language instruction system and methods |
| US20040078282A1 (en) | 2002-10-21 | 2004-04-22 | Rebecca Robinson | Electronic sales receipt and report generator |
| US7286975B2 (en) | 2002-10-24 | 2007-10-23 | Visteon Global Technologies, Inc. | Method for developing embedded code for system simulations and for use in a HMI |
| KR20040045101A (ko) | 2002-11-22 | 2004-06-01 | 삼성전자주식회사 | 마크업 화면에 매립된 오브젝트 화면의 입력 아이템을포커싱하는 방법 및 그 정보저장매체 |
| US7103600B2 (en) | 2003-03-06 | 2006-09-05 | Thought Inc. | Displayable presentation page and SQL searchable relational data source implementation of a system, method and software for creating or maintaining distributed transparent persistence of complex data objects and their data relationships |
| US7286223B2 (en) | 2003-03-18 | 2007-10-23 | Loma Linda University Medical Center | Method and apparatus for detecting embedded rebar within an interaction region of a structure irradiated with laser light |
| JP2004348591A (ja) * | 2003-05-23 | 2004-12-09 | Canon Inc | 文書検索方法及び装置 |
| US7111113B2 (en) | 2003-08-29 | 2006-09-19 | International Business Machines Corporation | Apparatus and method to write information to and/or read information from an information storage medium |
| US7060981B2 (en) | 2003-09-05 | 2006-06-13 | Facet Technology Corp. | System for automated detection of embedded objects |
| JP4424974B2 (ja) | 2003-11-20 | 2010-03-03 | 富士通株式会社 | 自動取引装置、自動取引装置の制御方法及び自動取引システム |
| US7317974B2 (en) | 2003-12-12 | 2008-01-08 | Microsoft Corporation | Remote vehicle system management |
| US7813000B2 (en) | 2003-12-30 | 2010-10-12 | Microsoft Corporation | Device color characterization profile format |
| US20050166047A1 (en) | 2004-01-23 | 2005-07-28 | Tollett Wayne J. | Intra-encapsulation intelligent searching of an object |
| US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
| US7509573B1 (en) | 2004-02-17 | 2009-03-24 | Microsoft Corporation | Anti-virus security information in an extensible markup language document |
| US7076025B2 (en) | 2004-05-19 | 2006-07-11 | Illinois Institute Of Technology | Method for detecting a mass density image of an object |
| WO2006010990A1 (en) | 2004-06-25 | 2006-02-02 | Nokia Corporation | A device |
| US8869104B2 (en) | 2004-06-30 | 2014-10-21 | Lsi Corporation | Object code configuration tool |
| US7921226B2 (en) | 2004-07-20 | 2011-04-05 | Alcatel-Lucent Usa Inc. | User specific request redirection in a content delivery network |
| JP2006079380A (ja) | 2004-09-10 | 2006-03-23 | Hitachi Ltd | ディスクアレイ装置 |
| US8489583B2 (en) * | 2004-10-01 | 2013-07-16 | Ricoh Company, Ltd. | Techniques for retrieving documents using an image capture device |
| US7653637B2 (en) | 2004-10-20 | 2010-01-26 | Microsoft Corporation | Indirect persistent storage for plugin in container |
| US7603624B2 (en) | 2004-10-21 | 2009-10-13 | Microsoft Corporation | System and method for styling content in a graphical user interface control |
| US20060095890A1 (en) * | 2004-11-01 | 2006-05-04 | Reeves Robert L | Embedded detection objects |
| AU2005309617B2 (en) | 2004-11-22 | 2009-03-26 | Facebook, Inc. | Method and apparatus for an application crawler |
| US7584194B2 (en) | 2004-11-22 | 2009-09-01 | Truveo, Inc. | Method and apparatus for an application crawler |
| JP2006146628A (ja) * | 2004-11-22 | 2006-06-08 | Hitachi Ltd | 内容画像による文書検索方法および装置 |
| US7873407B2 (en) | 2004-12-06 | 2011-01-18 | Cambridge Research & Instrumentation, Inc. | Systems and methods for in-vivo optical imaging and measurement |
| JP4641414B2 (ja) | 2004-12-07 | 2011-03-02 | キヤノン株式会社 | 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体 |
| US7627592B2 (en) * | 2004-12-16 | 2009-12-01 | Microsoft Corporation | Systems and methods for converting a formatted document to a web page |
| US7617444B2 (en) | 2004-12-20 | 2009-11-10 | Microsoft Corporation | File formats, methods, and computer program products for representing workbooks |
| US7617451B2 (en) | 2004-12-20 | 2009-11-10 | Microsoft Corporation | Structuring data for word processing documents |
| US20060136816A1 (en) | 2004-12-20 | 2006-06-22 | Microsoft Corporation | File formats, methods, and computer program products for representing documents |
| US7614000B2 (en) | 2004-12-20 | 2009-11-03 | Microsoft Corporation | File formats, methods, and computer program products for representing presentations |
| US7770180B2 (en) | 2004-12-21 | 2010-08-03 | Microsoft Corporation | Exposing embedded data in a computer-generated document |
| US20060136731A1 (en) | 2004-12-21 | 2006-06-22 | Signaturelink, Inc. | System and method for providing an online electronic signature |
| US7752632B2 (en) | 2004-12-21 | 2010-07-06 | Microsoft Corporation | Method and system for exposing nested data in a computer-generated document in a transparent manner |
| US8588483B2 (en) | 2004-12-21 | 2013-11-19 | Signaturelink, Inc. | System and method for providing a real-time, online biometric signature |
| JP2006252049A (ja) * | 2005-03-09 | 2006-09-21 | Fuji Xerox Co Ltd | 翻訳システム、翻訳方法およびプログラム |
| US8589561B2 (en) | 2005-03-22 | 2013-11-19 | Alcatel Lucent | Session level technique for improving web browsing performance on low speed links |
| US7694008B2 (en) | 2005-05-04 | 2010-04-06 | Venturi Wireless | Method and apparatus for increasing performance of HTTP over long-latency links |
| US8583827B2 (en) | 2005-05-26 | 2013-11-12 | Citrix Systems, Inc. | Dynamic data optimization in data network |
| US20060277452A1 (en) | 2005-06-03 | 2006-12-07 | Microsoft Corporation | Structuring data for presentation documents |
| US20070022128A1 (en) | 2005-06-03 | 2007-01-25 | Microsoft Corporation | Structuring data for spreadsheet documents |
| WO2006133136A2 (en) | 2005-06-03 | 2006-12-14 | Microsoft Corporation | Structuring data for word processing documents |
| US7433895B2 (en) * | 2005-06-24 | 2008-10-07 | Microsoft Corporation | Adding dominant media elements to search results |
| US8578277B2 (en) | 2005-09-15 | 2013-11-05 | Microsoft Corporation | Integrating charts in documents |
| US20070085993A1 (en) | 2005-10-17 | 2007-04-19 | Brown Robert Jr | Audible distance measurer-object discriminator cognition stimulant system device |
| US7797684B2 (en) | 2005-11-04 | 2010-09-14 | Oracle America, Inc. | Automatic failure analysis of code development options |
| US20070168969A1 (en) | 2005-11-04 | 2007-07-19 | Sun Microsystems, Inc. | Module search failure analysis |
| KR100677633B1 (ko) | 2005-11-07 | 2007-02-02 | 삼성전자주식회사 | 홈 네트워크 디바이스에서 리모컨 키를 처리하는 방법 및이를 위한 장치 |
| US20070106692A1 (en) | 2005-11-10 | 2007-05-10 | International Business Machines Corporation | System and method for recording and replaying a session with a web server without recreating the actual session |
| CN101520728B (zh) | 2008-02-25 | 2012-07-04 | 天津书生投资有限公司 | 一种第三方软件处理符合文档库标准的文档的方法 |
| CN100547590C (zh) | 2005-12-05 | 2009-10-07 | 北京书生国际信息技术有限公司 | 文档处理系统 |
| US7797638B2 (en) | 2006-01-05 | 2010-09-14 | Microsoft Corporation | Application of metadata to documents and document objects via a software application user interface |
| US7747557B2 (en) | 2006-01-05 | 2010-06-29 | Microsoft Corporation | Application of metadata to documents and document objects via an operating system user interface |
| US7747631B1 (en) | 2006-01-12 | 2010-06-29 | Recommind, Inc. | System and method for establishing relevance of objects in an enterprise system |
| US7593995B1 (en) | 2006-01-23 | 2009-09-22 | Clearwell Systems, Inc. | Methods and systems of electronic message threading and ranking |
| US7818660B2 (en) | 2006-01-29 | 2010-10-19 | Litera Technology Llc | Method of compound document comparison |
| US8930812B2 (en) | 2006-02-17 | 2015-01-06 | Vmware, Inc. | System and method for embedding, editing, saving, and restoring objects within a browser window |
| US9710508B2 (en) | 2006-03-09 | 2017-07-18 | Quickbase, Inc. | Method and system for managing data in a workflow process |
| US8826411B2 (en) | 2006-03-15 | 2014-09-02 | Blue Coat Systems, Inc. | Client-side extensions for use in connection with HTTP proxy policy enforcement |
| US7685255B2 (en) | 2006-04-24 | 2010-03-23 | Blue Coat Systems, Inc. | System and method for prefetching uncacheable embedded objects |
| US20070260748A1 (en) | 2006-05-05 | 2007-11-08 | Talkington Jerry L | Method and apparatus to reduce the size of objects transmitted over a network |
| US20070299965A1 (en) | 2006-06-22 | 2007-12-27 | Jason Nieh | Management of client perceived page view response time |
| US8031940B2 (en) * | 2006-06-29 | 2011-10-04 | Google Inc. | Recognizing text in images using ranging data |
| CN100573520C (zh) * | 2006-08-29 | 2009-12-23 | 国际商业机器公司 | 为检索对多个文档进行预处理的方法和装置 |
| US7710590B2 (en) | 2006-09-26 | 2010-05-04 | Xerox Corporation | Automatic maintenance of page attribute information in a workflow system |
| JP4908131B2 (ja) | 2006-09-28 | 2012-04-04 | 富士通株式会社 | 非即時処理存在可能性の表示処理プログラム,装置,および方法 |
| US8631012B2 (en) * | 2006-09-29 | 2014-01-14 | A9.Com, Inc. | Method and system for identifying and displaying images in response to search queries |
| GB2456255B (en) | 2006-09-29 | 2011-03-23 | Ericsson Telefon Ab L M | A method and apparatus for controlling a proxy server |
| US8176178B2 (en) | 2007-01-29 | 2012-05-08 | Threatmetrix Pty Ltd | Method for tracking machines on a network using multivariable fingerprinting of passively available information |
| US20080155016A1 (en) | 2006-12-22 | 2008-06-26 | Tsai Wei K | Content procurement architecture |
| US9092434B2 (en) | 2007-01-23 | 2015-07-28 | Symantec Corporation | Systems and methods for tagging emails by discussions |
| US20080192905A1 (en) | 2007-02-13 | 2008-08-14 | Cisco Technology, Inc. | Storage and retrieval of a caller's spoken name |
| US7941609B2 (en) | 2007-02-23 | 2011-05-10 | Microsoft Corporation | HTTP acceleration by prediction and pre-fetching |
| US8533310B2 (en) | 2007-03-09 | 2013-09-10 | Riverbed Technology, Inc. | Method and apparatus for acceleration by prefetching associated objects |
| WO2008148238A1 (de) | 2007-06-08 | 2008-12-11 | Unblu Inc. | Fernbedienung eines browser-programms |
| US20100146415A1 (en) | 2007-07-12 | 2010-06-10 | Viasat, Inc. | Dns prefetch |
| US20090037947A1 (en) | 2007-07-30 | 2009-02-05 | Yahoo! Inc. | Textual and visual interactive advertisements in videos |
| US20090037263A1 (en) | 2007-07-30 | 2009-02-05 | Yahoo! Inc. | System for the insertion and control of advertisements in video |
| US8244710B2 (en) | 2007-08-03 | 2012-08-14 | Oracle International Corporation | Method and system for information retrieval using embedded links |
| US8145222B2 (en) | 2007-10-02 | 2012-03-27 | Research In Motion Limited | Method, mobile communication device, and system for selective downloading to a mobile communication device |
| EP2045968B1 (en) | 2007-10-02 | 2011-06-15 | Research In Motion Limited | Methods for selective downloading to a mobile communication device |
| US9281959B2 (en) | 2007-11-27 | 2016-03-08 | Samsung Electronics Co., Ltd. | Method for controlling home network device using universal web application and apparatus thereof |
| US20090141905A1 (en) | 2007-12-03 | 2009-06-04 | David Warhol | Navigable audio-based virtual environment |
| US20090150168A1 (en) * | 2007-12-07 | 2009-06-11 | Sap Ag | Litigation document management |
| US8171393B2 (en) * | 2008-04-16 | 2012-05-01 | Clearwell Systems, Inc. | Method and system for producing and organizing electronically stored information |
| US7941535B2 (en) | 2008-05-07 | 2011-05-10 | Doug Sherrets | System for targeting third party content to users based on social networks |
| US20090293066A1 (en) | 2008-05-20 | 2009-11-26 | Anthony Low | Systems and methods for remoting calls issued to embedded or linked object interfaces |
| US8055619B2 (en) | 2008-06-05 | 2011-11-08 | Novell, Inc. | Mechanisms to support object-oriented version control operations |
| US20100042743A1 (en) | 2008-08-13 | 2010-02-18 | Sk Telecom. Co., Ltd | Contents delivery system and method using page redirection, and gslb switch thereof |
| US8126899B2 (en) * | 2008-08-27 | 2012-02-28 | Cambridgesoft Corporation | Information management system |
| DE102008045188A1 (de) | 2008-08-30 | 2010-03-04 | Fachhochschule Kiel | Werkstück zum Erlernen der Handhabung von Werkzeugen und Verfahren zu dessen Herstellung |
| US8620884B2 (en) | 2008-10-24 | 2013-12-31 | Microsoft Corporation | Scalable blob storage integrated with scalable structured storage |
| US20100107116A1 (en) | 2008-10-27 | 2010-04-29 | Nokia Corporation | Input on touch user interfaces |
| US20100121914A1 (en) | 2008-11-11 | 2010-05-13 | Sk Telecom Co., Ltd. | Contents delivery system and method based on content delivery network provider and replication server thereof |
| DE102008058457A1 (de) | 2008-11-21 | 2010-06-02 | Hilti Aktiengesellschaft | Verfahren und handgeführter Sensor mit adaptiver Detektionsschwelle zur Detektion von in Bauwerkuntergründen eingebetteten Fremdobjekten |
| US20100198627A1 (en) | 2009-01-30 | 2010-08-05 | Moed Elisa L | System and method for implementing bible based travel |
| US10198523B2 (en) | 2009-06-03 | 2019-02-05 | Microsoft Technology Licensing, Llc | Utilizing server pre-processing to deploy renditions of electronic documents in a computer network |
| US8515212B1 (en) * | 2009-07-17 | 2013-08-20 | Google Inc. | Image relevance model |
| WO2011017084A2 (en) | 2009-07-27 | 2011-02-10 | Workshare Technology, Inc. | Methods and systems for comparing presentation slide decks |
| US8290904B2 (en) | 2009-07-27 | 2012-10-16 | International Business Machines Corporation | Preventing transfer and duplication of redundantly referenced objects across nodes of an application system |
| US20110313870A1 (en) | 2009-10-13 | 2011-12-22 | Skycore LLC, | Initiating and Enabling Secure Contactless Transactions and Services with a Mobile Device |
| US8224901B2 (en) | 2009-12-14 | 2012-07-17 | International Business Machines Corporation | Method and apparatus for enhancing compound documents with questions and answers |
| US8711419B2 (en) | 2009-12-15 | 2014-04-29 | Xerox Corporation | Preserving user applied markings made to a hardcopy original document |
| US8549395B2 (en) | 2009-12-16 | 2013-10-01 | Ca, Inc. | Method and system for transforming an integrated webpage |
| US9245043B2 (en) * | 2009-12-23 | 2016-01-26 | Fuji Xerox Co., Ltd. | Embedded media markers and systems and methods for generating and using them |
| US20110255789A1 (en) * | 2010-01-15 | 2011-10-20 | Copanion, Inc. | Systems and methods for automatically extracting data from electronic documents containing multiple layout features |
| EP2357575A1 (en) | 2010-02-12 | 2011-08-17 | Research In Motion Limited | Image-based and predictive browsing |
| US20110246946A1 (en) | 2010-03-31 | 2011-10-06 | Douglas Weber | Apparatus and Method for Interacting with Embedded Objects in Mail Application |
| US7933859B1 (en) | 2010-05-25 | 2011-04-26 | Recommind, Inc. | Systems and methods for predictive coding |
| JP2012008884A (ja) * | 2010-06-25 | 2012-01-12 | Canon Inc | 編集装置、編集装置におけるレイアウト編集方法およびプログラム |
| KR101132509B1 (ko) * | 2010-08-04 | 2012-04-03 | 엔에이치엔(주) | 모바일 검색을 위한 모바일 시스템, 검색 시스템 및 검색 결과 제공 방법 |
| US20120041955A1 (en) * | 2010-08-10 | 2012-02-16 | Nogacom Ltd. | Enhanced identification of document types |
| US9053296B2 (en) * | 2010-08-28 | 2015-06-09 | Software Analysis And Forensic Engineering Corporation | Detecting plagiarism in computer markup language files |
| US20120076414A1 (en) * | 2010-09-27 | 2012-03-29 | Microsoft Corporation | External Image Based Summarization Techniques |
| CN103229167A (zh) | 2010-10-06 | 2013-07-31 | 星汇数据解决方案公司 | 用于为电子发现数据编索引的系统和方法 |
| WO2012060803A1 (en) | 2010-11-05 | 2012-05-10 | Thomson Licensing | System and method for providing object substitution in video |
| US20120179757A1 (en) | 2011-01-10 | 2012-07-12 | Troy Allen Jones | System and process for communication and promotion of audio within a social network |
| US20120197981A1 (en) | 2011-02-01 | 2012-08-02 | Jawe Chan | Automated Information Update System |
-
2011
- 2011-10-06 CN CN2011800568870A patent/CN103229167A/zh active Pending
- 2011-10-06 US US13/267,800 patent/US8924395B2/en not_active Expired - Fee Related
- 2011-10-06 WO PCT/US2011/055165 patent/WO2012048158A1/en not_active Ceased
- 2011-10-06 EP EP11831634.8A patent/EP2625655A4/en not_active Withdrawn
-
2014
- 2014-11-04 US US14/533,015 patent/US9659013B2/en not_active Expired - Fee Related
-
2017
- 2017-05-05 US US15/587,563 patent/US11036808B2/en not_active Expired - Fee Related
-
2021
- 2021-05-18 US US17/323,413 patent/US20210342404A1/en not_active Abandoned
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070208669A1 (en) * | 1993-11-19 | 2007-09-06 | Rivette Kevin G | System, method, and computer program product for managing and analyzing intellectual property (IP) related transactions |
| CN1398377A (zh) * | 2000-02-04 | 2003-02-19 | 美国联机股份有限公司 | 提供和呈现可定标web页面的系统和处理 |
| US20080065842A1 (en) * | 2002-12-20 | 2008-03-13 | Bea Systems, Inc. | System and Method for Memory Leak Detection in a Virtual Machine Environment |
| CN1783091A (zh) * | 2004-12-01 | 2006-06-07 | 捷讯研究有限公司 | 在文档中查找搜索串并在移动通信设备上查看的方法 |
| US20060225001A1 (en) * | 2005-03-30 | 2006-10-05 | Sylthe Olav A | Method for requesting and viewing a preview of a table attachment on a mobile communication device |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105765559A (zh) * | 2013-09-09 | 2016-07-13 | 尤奈特戴克斯公司 | 交互式案件管理系统 |
| CN105765559B (zh) * | 2013-09-09 | 2019-03-05 | 尤奈特戴克斯公司 | 交互式案件管理系统 |
| US10453071B2 (en) | 2013-09-09 | 2019-10-22 | UnitedLex Corp. | Interactive case management system |
| US11803860B2 (en) | 2013-09-09 | 2023-10-31 | UnitedLex Corp. | Email mappings |
| US11978057B2 (en) | 2013-09-09 | 2024-05-07 | UnitedLex Corp. | Single instance storage of metadata and extracted text |
| CN111241096A (zh) * | 2020-01-07 | 2020-06-05 | 中孚安全技术有限公司 | 一种excel文档的文本提取方法、系统、终端及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20170308528A1 (en) | 2017-10-26 |
| US9659013B2 (en) | 2017-05-23 |
| EP2625655A4 (en) | 2014-04-16 |
| US8924395B2 (en) | 2014-12-30 |
| US11036808B2 (en) | 2021-06-15 |
| US20150055867A1 (en) | 2015-02-26 |
| US20120265762A1 (en) | 2012-10-18 |
| US20210342404A1 (en) | 2021-11-04 |
| EP2625655A1 (en) | 2013-08-14 |
| WO2012048158A1 (en) | 2012-04-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103229167A (zh) | 用于为电子发现数据编索引的系统和方法 | |
| US20190236102A1 (en) | System and method for differential document analysis and storage | |
| EP2923282B1 (en) | Segmented graphical review system and method | |
| CN102959578B (zh) | 取证系统、取证方法及取证程序 | |
| Wickham et al. | Reflecting on the strategic use of CAQDAS to manage and report on the qualitative research process | |
| US20090198677A1 (en) | Document Comparison Method And Apparatus | |
| CN104361018B (zh) | 电子档案信息整编方法及装置 | |
| CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
| CN102696039A (zh) | 取证系统、取证方法及取证程序 | |
| CN113722472B (zh) | 一种技术文献信息提取方法、系统及存储介质 | |
| US20140195532A1 (en) | Collecting digital assets to form a searchable repository | |
| CN103329124A (zh) | 用于为现有数字样本编译唯一的样本代码的方法和系统 | |
| CN110647505A (zh) | 一种基于指纹特征的计算机辅助密点标注方法 | |
| CN117407360A (zh) | 一种法律文件智能存档系统 | |
| CN107169011B (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
| US11675751B2 (en) | Systems and methods for capturing data schema for databases during data insertion | |
| WO2022013675A1 (en) | Multimodal table encoding for information retrieval systems | |
| US20060277169A1 (en) | Using the quantity of electronically readable text to generate a derivative attribute for an electronic file | |
| CN113806311B (zh) | 基于深度学习的文件分类方法、装置、电子设备及介质 | |
| US20130031474A1 (en) | Method for managing discovery documents on a mobile computing device | |
| US11645472B2 (en) | Conversion of result processing to annotated text for non-rich text exchange | |
| Pledge et al. | Process and progress: working with born-digital material in the Wendy Cope Archive at the British Library | |
| JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
| CN113486148A (zh) | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 | |
| CN103136258B (zh) | 知识条目的提取方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130731 |