[go: up one dir, main page]

TWI385535B - Word檔轉換成XML檔的系統及方法 - Google Patents

Word檔轉換成XML檔的系統及方法 Download PDF

Info

Publication number
TWI385535B
TWI385535B TW095147312A TW95147312A TWI385535B TW I385535 B TWI385535 B TW I385535B TW 095147312 A TW095147312 A TW 095147312A TW 95147312 A TW95147312 A TW 95147312A TW I385535 B TWI385535 B TW I385535B
Authority
TW
Taiwan
Prior art keywords
file
xml
word
formula
converting
Prior art date
Application number
TW095147312A
Other languages
English (en)
Other versions
TW200825779A (en
Inventor
Chung I Lee
Hai-Hong Lin
De-Yi Xie
Chen-Chen Zhang
Wen-Feng Zhang
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW095147312A priority Critical patent/TWI385535B/zh
Publication of TW200825779A publication Critical patent/TW200825779A/zh
Application granted granted Critical
Publication of TWI385535B publication Critical patent/TWI385535B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

Word檔轉換成XML檔的系統及方法
本發明涉及一種Word檔轉換成XML檔的系統及方法,尤其涉及一種將Word檔中的公式轉換成XML檔的系統及方法。
隨著電子資訊化的加速,各國政府都在加速實現辦公電子化,以節約時間和成本,提高工作效率。以專利申請為例,現在各國、各地區都在推行電子送件形式。這種電子送件需要將Word檔轉換成XML(Extensible Markup Language,可擴展標記語言)檔,然後傳送給專利審查官方機構。
目前從Word檔中讀取物件(如公式、圖形等)都要複製到系統剪貼板,對於傳統的B/S(Browser/Server,流覽器/伺服器)模式,伺服器端不能處理這種將Word中公式複製到系統剪貼板的情況。因此,當Word檔中包含有公式時,伺服器端不能將Word檔中的公式轉換成XML格式。
鑒於以上內容,有必要提供一種Word檔轉換成XML檔的系統及方法,其可將Word檔中的公式轉換成XML字串。
一種Word檔轉換成XML檔的系統,包括用戶電腦、文檔轉換伺服器及文檔伺服器,所述文檔伺服器中包含有需要轉換成XML檔的Word檔,所述文檔轉換伺服器包括:文檔載入模組,用於從文檔伺服器中載入需要轉換成XML檔的Word檔,調用物件模型獲取Word檔中包含的公式;公式轉換模組,用於迴圈讀取Word檔中的每一個公式,將每一個公式載入剪貼板並轉換成圖片檔,然後保存在固定路徑下,將圖片檔路徑存儲在一個陣列中;圖片檔處理模組,用於依次讀取陣列中的每一個元素,根據該陣列元素對應的圖片檔路徑獲取對應的圖片,並對該圖片進行處理,記錄下處理後圖片的圖元大小;文檔轉換模組,用於依次讀取Word檔中的每一個段落,按照圖片轉換規則和文本轉換規則,將該段落中的公式和文本轉換成對應的XML字串,然後根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。
一種Word檔轉換成XML檔的方法,包括如下步驟:從文檔伺服器中載入需要轉換成XML檔的Word檔;調用物件模型獲取Word檔中包含的公式;迴圈讀取Word檔中的每一個公式,將每一個公式載入剪貼板並轉換成圖片檔,然後保存在固定路徑下,將圖片檔路徑存儲在一個陣列中;依次讀取陣列中的每一個元素,根據該陣列元素對應的圖片檔路徑獲取對應的圖片,並對該圖片進行處理,記錄下處理後圖片的圖元大小;依次讀取Word檔中的每一個段落,按照圖片轉換規則和文本轉換規則,將該段落中的公式和文本轉換成對應的XML字串;根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。
相較於習知技術,所述的Word檔轉換成XML檔的系統及方法,可以將Word檔中的公式轉換成XML字串,提高了專利電子送件的效率。
參閱圖1所示,係本發明Word檔轉換成XML檔的系統較佳實施例的系統架構圖。該系統主要包括用戶電腦10、網路20、文檔轉換伺服器30及文檔伺服器40。所述用戶電腦10用於向文檔轉換伺服器30發送Word檔轉換成XML檔的請求,所述文檔轉換伺服器30用於處理用戶電腦10的檔轉換請求,將Word檔轉換成XML檔,該文檔轉換伺服器30連接有文檔伺服器40,用於存儲需要轉換成XML檔的Word檔。所述用戶電腦10和文檔轉換伺服器30透過網路20連接。
在將Word檔轉換成XML檔前,文檔轉換伺服器30先將Word檔中的所有公式轉換成圖片並保存下來。當在進行Word檔轉換遇到公式時,按照圖片轉換規則,將公式對應的圖片轉換成XML字串,遇到文本時,按照文本轉換規則,將文本直接轉換成XML字串。然後,根據不同的文檔轉換範本,將該XML字串轉換成對應的XML檔。所述文檔轉換範本可以是申請檔中的摘要及申請專利範圍等。
參閱圖2所示,係圖1所示文檔轉換伺服器30的功能模組圖。所述文檔轉換伺服器30包括文檔載入模組310,公式轉換模組311,圖片檔處理模組312及文檔轉換模組313。本發明所稱的模組是完成一特定功能的電腦程式段,比程式更適合於描述軟體在電腦中的執行過程,因此在本發明對軟體描述中都以模組描述,以下描述將結合圖1和圖2進行。
首先,當用戶需要將Word檔轉換成XML檔時,透過用戶電腦10向文檔轉換伺服器30發送Word檔轉換成XML檔的請求,文檔轉換伺服器30接收到該檔轉換請求後,文檔載入模組310,從文檔伺服器40中載入需要轉換成XML檔的Word檔,調用COM(Component Object Model,物件模型)獲取Word檔中包含的公式。
然後,公式轉換模組311迴圈讀取Word檔中的每一個公式,先將第一個公式載入剪貼板並轉換成圖片檔,然後保存在固定路徑下(如文檔轉換伺服器30的磁片上某個檔夾中),並將該圖片檔路徑存儲在一個陣列中。接著,公式轉換模組311讀取下一個公式,執行相同的操作,直到把Word檔中所有的公式都轉換成圖片檔,並將圖片檔路徑存儲到陣列中。所述公式轉換模組311轉換成的圖片檔格式為TIF(Tag Image File,標籤圖像檔)格式。
圖片檔處理模組312依次讀取陣列中的每一個元素,根據該陣列元素對應的圖片檔路徑獲取對應的圖片,調整圖片的清晰度,並將所述TIF檔格式的圖像檔轉換成JPEG(Joint Photographic Experts Group,聯合圖像專家組)壓縮圖片,記錄下壓縮後圖片的圖元大小。所述聯合圖像專家組是一個在國際標準化組織(ISO,International Organization for Standardization)下從事靜態圖像壓縮標準制定的委員會。
文檔轉換模組313依次讀取Word檔中的每一個段落,按照圖片轉換規則和文本轉換規則,將該段落中的公式和文本轉換成對應的XML字串,然後根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。
具體而言,文檔轉換模組313先讀取Word檔的第一段,判斷該段內容是否包含公式,如果整段內容都不包含公式,則根據文本轉換規則,將該段落中文本內容直接轉換成對應的XML字串。如果該段內容中包含有公式,則逐步讀取該段內容的每一個字元,如果該字元是公式,則按照圖片轉換規則,根據陣列中保存的該公式對應的圖片位址,獲取該公式對應的圖片,將該圖片轉換成對應的XML字串。如果該字元是文本內容,則按照文本轉換規則,將該字元轉換成對應的XML字串。接著,文檔轉換模組313判斷Word檔的所有段落是否讀取完畢,如果沒有讀取完畢,則讀取Word檔的下一段,執行相同的操作,直到把Word檔都轉換成XML字串。
當Word檔的所有段落都讀取完畢,文檔轉換模組313根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。例如,當在轉換說明書摘要時,則根據說明書摘要的轉換範本,將說明書摘要的XML字串轉換成對應的XML檔。當在轉換申請專利範圍時,則根據申請專利範圍的轉換範本,將申請專利範圍的XML字串轉換成對應的XML檔。
參閱圖3所示,係本發明Word檔轉換成XML檔的方法較佳實施例的流程圖。首先,步驟S401,文檔載入模組310根據用戶的請求從文檔伺服器40中載入需要轉換成XML檔的Word檔。
步驟S402,調用COM組件獲取Word檔中包含的公式。
步驟S403,公式轉換模組311迴圈讀取Word檔中的每一個公式,先將第一個公式載入剪貼板並轉換成圖片檔,然後保存在固定路徑下(如文檔轉換伺服器30的磁片上某個檔夾中),並將該圖片檔路徑存儲在一個陣列中。接著,公式轉換模組311讀取下一個公式,執行相同的操作,直到把Word檔中所有的公式都轉換成圖片檔,並將圖片檔路徑存儲到陣列中。所述公式轉換模組311轉換成的圖片檔格式為TIF(Tag Image File,標籤圖像檔)格式。
步驟S404,圖片檔處理模組312依次讀取陣列中的每一個元素,根據該陣列元素對應的圖片檔路徑獲取對應的圖片,調整圖片的清晰度,並將所述TIF檔格式的圖像檔轉換成JPEG(Joint Photographic Experts Group,聯合圖像專家組)壓縮圖片,記錄下壓縮後圖片的圖元大小。
步驟S405,文檔轉換模組313依次讀取Word檔中的每一個段落,按照圖片轉換規則和文本轉換規則,將該段落中的公式和文本轉換成對應的XML字串,然後根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。該步驟的具體流程圖如圖4所示。
參閱圖4所示,係圖3中Word檔轉換成XML檔的具體流程圖。其中,步驟S4051,文檔轉換模組313先讀取Word檔的第一段。
步驟S4052,判斷該段內容是否包含公式。
步驟S4053,如果整段內容都不包含公式,則根據文本轉換規則,將該段落中文本內容直接轉換成對應的XML字串。
步驟S4054,如果該段內容中包含有公式,則逐步讀取該段內容的每一個字元,如果該字元是公式,則按照圖片轉換規則,根據陣列中保存的該公式對應的圖片位址,獲取該公式對應的圖片,將該圖片轉換成對應的XML字串。如果該字元是文本內容,則按照文本轉換規則,將該字元轉換成對應的XML字串。
步驟S4055,判斷Word檔的所有段落是否讀取完畢,如果沒有讀取完畢,則讀取Word檔的下一段,流程回到S4051。
步驟S4056,如果Word檔的所有段落都讀取完畢,文檔轉換模組313根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。例如,在轉換說明書摘要時,則根據說明書摘要的轉換範本,將說明書摘要的XML字串轉換成對應的XML檔。在轉換申請專利範圍時,則根據申請專利範圍的轉換範本,將申請專利範圍的XML字串轉換成對應的XML檔。
本發明Word檔轉換成XML檔的系統及方法,雖以較佳實施例揭露如上,然其並非用以限定本發明。任何熟悉此項技藝之人士,在不脫離本發明之精神及範圍內,當可做更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
用戶電腦...10
網路...20
文檔轉換伺服器...30
文檔伺服器...40
文檔載入模組...310
公式轉換模組...311
圖片檔處理模組...312
文檔轉換模組...313
圖1係本發明Word檔轉換成XML檔的系統較佳實施例的系統架構圖。
圖2係圖1所示文檔轉換伺服器的功能模組圖。
圖3係本發明Word檔轉換成XML檔的方法較佳實施例的流程圖。
圖4係圖3中Word檔轉換成XML檔的具體流程圖。

Claims (6)

  1. 一種Word檔轉換成XML檔的系統,包括用戶電腦、文檔轉換伺服器及文檔伺服器,所述文檔伺服器中包含有需要轉換成XML檔的Word檔,其中,所述文檔轉換伺服器包括:文檔載入模組,用於從文檔伺服器中載入需要轉換成XML檔的Word檔,調用物件模型獲取Word檔中包含的公式;公式轉換模組,用於迴圈讀取Word檔中的每一個公式,將每一個公式載入剪貼板並轉換成圖片檔,然後保存在固定路徑下,將圖片檔路徑存儲在一個陣列中;圖片檔處理模組,用於依次讀取陣列中的每一個元素,根據該陣列元素對應的圖片檔路徑獲取對應的圖片,並對該圖片進行處理,記錄下處理後圖片的圖元大小;及文檔轉換模組,用於依次讀取Word檔中的每一個段落,按照圖片轉換規則和文本轉換規則,將該段落中的公式和文本轉換成對應的XML字串,然後根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。
  2. 如申請專利範圍第1項所述的Word檔轉換成XML檔的系統,其中,所述公式轉換模組轉換成的圖片檔格式為標籤圖像檔。
  3. 如申請專利範圍第2項所述的Word檔轉換成XML檔的系統,其中,所述圖片檔處理模組對圖片進行處理是指調整圖片的清晰度,並將所述標籤圖像檔轉換成JPEG壓縮圖片。
  4. 一種Word檔轉換成XML檔的方法,該方法包括如下步驟:從文檔伺服器中載入需要轉換成XML檔的Word檔;調用物件模型獲取Word檔中包含的公式;迴圈讀取Word檔中的每一個公式,將每一個公式載入剪貼板並轉換成圖片檔,然後保存在固定路徑下,將圖片檔路徑存儲在一個陣列中;依次讀取陣列中的每一個元素,根據該陣列元素對應的圖片檔路徑獲取對應的圖片,並對該圖片進行處理,記錄下處理後圖片的圖元大小;依次讀取Word檔中的每一個段落,按照圖片轉換規則和文本轉換規則,將該段落中的公式和文本轉換成對應的XML字串;及根據不同的文檔轉換範本,將XML字串轉換成對應的XML檔。
  5. 如申請專利範圍第4項所述的Word檔轉換成XML檔的方法,其中,所述圖片檔的格式為標籤圖像檔。
  6. 如申請專利範圍第5項所述的Word檔轉換成XML檔的方法,其中,所述對圖片進行處理的步驟包括:調整圖片的清晰度,並將所述標籤圖像檔轉換成JPEG壓縮檔。
TW095147312A 2006-12-15 2006-12-15 Word檔轉換成XML檔的系統及方法 TWI385535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW095147312A TWI385535B (zh) 2006-12-15 2006-12-15 Word檔轉換成XML檔的系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW095147312A TWI385535B (zh) 2006-12-15 2006-12-15 Word檔轉換成XML檔的系統及方法

Publications (2)

Publication Number Publication Date
TW200825779A TW200825779A (en) 2008-06-16
TWI385535B true TWI385535B (zh) 2013-02-11

Family

ID=44772108

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095147312A TWI385535B (zh) 2006-12-15 2006-12-15 Word檔轉換成XML檔的系統及方法

Country Status (1)

Country Link
TW (1) TWI385535B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336124B1 (en) * 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
TW550465B (en) * 2002-02-22 2003-09-01 Taiwan Knowledge Bank Co Ltd Video multi-media message-recording discussing area and announcement system and method
TW200611142A (en) * 2004-09-17 2006-04-01 Infopower Corp System and method of web-based editor for compound documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336124B1 (en) * 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
TW550465B (en) * 2002-02-22 2003-09-01 Taiwan Knowledge Bank Co Ltd Video multi-media message-recording discussing area and announcement system and method
TW200611142A (en) * 2004-09-17 2006-04-01 Infopower Corp System and method of web-based editor for compound documents

Also Published As

Publication number Publication date
TW200825779A (en) 2008-06-16

Similar Documents

Publication Publication Date Title
CN101196886B (zh) Word文件转换成XML文件的系统及方法
CN102103573B (zh) 一种快速生成开放格式文档的方法及系统
US9477886B2 (en) Smart document anchor
US20090185051A1 (en) Data processing apparatus, imaging apparatus, and medium storing data processing program
US20090066693A1 (en) Encoding A Depth Map Into An Image Using Analysis Of Two Consecutive Captured Frames
CN111444750B (zh) 一种pdf文档识别方法、装置及电子设备
JP2011138533A (ja) 携帯用計算デバイスへの無線通信媒体を介するコンテンツ送達のためのシステムおよび方法
CN111159594A (zh) 信息处理方法、信息处理装置及终端设备
CN112508717A (zh) 一种影像信息的审核方法、装置、电子设备及存储介质
US20170255486A1 (en) Information processing system, information processing apparatus, and information processing method
CN113934955A (zh) 浏览器生成显示ppt文件的方法、浏览器及存储介质
US20170139875A1 (en) Converting electronic documents having visible objects
CN114330245A (zh) 一种ofd文档的处理方法及装置
US20080098298A1 (en) Compound Web Document Generation Method and Web-based Editing System for Generating a Compound Web Document
WO2024001308A1 (zh) 基于模板的红外热像分析报告的批量生成方法及装置
TWI385535B (zh) Word檔轉換成XML檔的系統及方法
CN116647761B (zh) 媒体数据处理方法、装置、电子设备及可读存储介质
CN113935286A (zh) makdown文档转换方法、装置、设备和存储介质
JP5605228B2 (ja) 画像処理装置及びプログラム
CN100485692C (zh) Xml数据存储系统和方法
CN104239221B (zh) 阅读器内存优化系统及方法
JP2012118932A (ja) 情報処理装置及びプログラム
CN110795914B (zh) 一种pdf文档转换为图片的方法、装置及电子设备
JP2010250434A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2008181223A (ja) 電子文書管理システム、電子文書管理方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees