[go: up one dir, main page]

TW201020816A - Information retrieval oriented translation apparatus and methods, and storage media - Google Patents

Information retrieval oriented translation apparatus and methods, and storage media Download PDF

Info

Publication number
TW201020816A
TW201020816A TW097145471A TW97145471A TW201020816A TW 201020816 A TW201020816 A TW 201020816A TW 097145471 A TW097145471 A TW 097145471A TW 97145471 A TW97145471 A TW 97145471A TW 201020816 A TW201020816 A TW 201020816A
Authority
TW
Taiwan
Prior art keywords
word
translation
index
mentioned
words
Prior art date
Application number
TW097145471A
Other languages
English (en)
Inventor
Ken-Yu Lin
Shang-Hsien Hsieh
Hsien-Tang Lin
Original Assignee
Univ Nat Taiwan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Taiwan filed Critical Univ Nat Taiwan
Priority to TW097145471A priority Critical patent/TW201020816A/zh
Priority to US12/479,459 priority patent/US20100131261A1/en
Publication of TW201020816A publication Critical patent/TW201020816A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

201020816 六、發明說明: 【發明所屬之技術領域】 本發明係有關於一種翻譯裝置和方法,特別是有關於一種應 用於跨語言資訊檢索的翻譯裝置和方法。 【先前技術】 隨著網際網路的發展,也帶動了人們使用網路取得所需資訊 的習慣。然而,在查詢資訊的同時常常不會只針對單一種語言進 Φ 行檢索,而可能是需要檢索數個語言的資料。也就是說,根據一 語言的關鍵字,查詢另一語言的相關文件。在這種跨領域檢索的 基礎之下,傳統的其中一個方式就是先把欲查詢之另一種語言的 文件人工翻譯成與查詢關鍵字相同的語言,然後再根據查詢關鍵 字對翻譯好的文件進行檢索。此外,另一個傳統的方式是對於欲 查詢之另一種語言的文件,只將其中的關鍵字翻譯出而不全文翻 譯。 對於第一種傳統的翻譯方式來說,其翻譯品質是翻譯軟體所 不能相提並論的,因此使用人工翻譯方式的文件可以提供跨語言 ® 資訊檢索的高度正確性。然而在資訊爆炸的時代,於網路上有著 無以計數的文件,以人工的方式逐一將所有文件預先翻譯成另外 的語言是不實際的。而對於第二種傳統的翻譯方式來說,因為只 翻譯部分的關鍵字,因此對於資訊檢索的應用而言,亦限制了其 完整性。 【發明内容】 基於以上的考量,需要一種以資訊檢索為導向的翻譯裝置和 方法,用以將大量文件翻譯成另一語言,且對於資訊檢索之用途 來說,依然能保留人工翻譯所提供之高度檢索正確性的優點。 3 0991-A51341-TW/97 工 781 201020816 、有鑑於此,本發明揭露一種以資訊檢索為導向的翻譯方法, 用以翻譯複數中文斷詞,其中中文斷詞包括—第—斷詞和一第二 :凋。該方法包括比較第-斷詞與-第一詞庫之複數第-索引, /、中第詞庫具有對應於第一索引的複數第一翻譯詞。取得與第 一斷詞相同之第—索引所對應的第-翻譯詞。比較第二斷詞與一 第-縣之複數第二索引,其中第二詞庫具有對應於第二索引的 複數第二翻譯詞。取得與第二斷詞相同之第二索引所對應的第二 魯 此外,本發明另外揭露一種以資訊檢索為導向的翻譯裝置, 用以翻課複數中文斷詞,其中中文斷詞包括—第一斷詞和—第二 斷》司。該裝置包括—第—詞庫、—第二詞庫、—比對模組和—翻 譯詞取得模組。第-詞庫具有複㈣—索引以及對應於第一索引 的複數第自譯第二詞庫具有複數第二索引以及對應於第二 索引的複數第二翻譯詞。比對模組用以比較第一斷詞與第—索 引以及比較第二斷詞與第二索引。翻譯詞取得模組用以取得 第-斷詞相同之第一索引所對應的第一翻譯詞,以、 斷詞相同之第二索引所對應的第二翻譯詞。 另外,本發明揭露—種儲存媒體,用以儲存—種翻譯 翻譯程式包括複數程式碼,其用以載 ^ 系統執仃-種以資訊檢索為導向的_方法。上述方法用以 翻譯複數中文斷詞,中文斷詞包括—第—斷詞和—第二斷詞。上 述方法包括比較第-斷詞與_第—詞庫之複數第—索引, 應於第一索引的複數第一翻譯詞。取得與第二斷詞 相同之第一索引所對應的第一翻譯詞。比較第二斷詞二 庫第二索引,其中第二詞庫具有對應於第二索第 -翻譯.取得與第二斷詞相同之第二索料對應的第 0991-A51341 -TW/97 jh 781 4 201020816 詞。 【實施方式】 為使本發明之上述目的、特徵和優點能更明顯易懂,下文特 舉較佳實施例’並配合所附圖式,作詳細說明如下: 第1圖顯示根據本發明一實施例所述之翻譯裝置1 〇的方塊 圖。翻譯裝置10包括一文件收集模組u、一文件斷詞模組12、 一虛字詞刪除模組13、一第一詞庫14、一第二詞庫15、一比對 模組16和一翻譯詞取得模組17。翻譯裝置1〇的詳細 蓉 圖將於以下說明。 ',L程· 第2圖顯示根據本發明—實_所述之翻料置 流程圖。首先文件收集模組U收集複數中文文章(步驟 假 =ΓΓ之一的内容如下:基於經費編列及儘快進行耐震 參 =行耐震能力補強之校舍建築。根據上述收集=:選 文件斷詞模組12將文章進行斷詞的步驟(步驟叫: = :, 上述文章内容經過斷詞後可產生下列如表-所示的斷1 基於經f編列及---------------—— 建立一初步評估方法Λ作震/估補強工作之考量,應 補強之校舍^ "时筛選優先進行耐震能力 ---—--— 接著,虛字詞刪除模組〗3 (步驟S22)’其中虛字詞指得是 斷詞移除虛字詞的部分 例如,,及”、,,之,,、,,一,,、”以,,和&思、義的辭彙和標點符號等, 此,表-經過虛字詞移除㈣後意Μ辭彙。因 099 丨-Α5134】-TW/97 工 781 201020816 評估補強M考量建立初步評 ~~-優先進行—耐震能力校舍建築 接著本發明將根據表二的内 =第i庫U進行表二内容的翻譯,二 =:=
m而非專業用語的一般辭典,其 及對應於複數第—索引的複數第一翻譯詞。舉=第第= :二:為,一般用語,,建立,’,而第-翻譯詞為其相對的翻 »睪 establish、create” 或”buiid”。 在上述的基礎之下,比對模組16將表一中的每個斷詞逐一 與第-詞庫14(-般辭典)中的第一索引比較(步驟s23),若發現 有與斷詞相同的第一索引,則翻譯詞取得模組17取得這些第一 索引所對應的第一翻譯詞(步驟S24)。 經過步驟S23和步驟S24的處理之後,表二可被翻譯成如 下的形式:
__表三··一般辭典翻譯後的結果_ 基於 firnds 編列 “as soon as possible” “to advance” 耐震 seismic evaluate 補強 job consider ought establish(或 create,build) initial evaluate method accomplish initial “to filter” priority “to advance” 财震 seismic capability 補 強校舍 architecture 根據一般辭典的翻譯結果,只有表三所示的中文部分無法翻 譯出,因此接下來進行專業辭典(第二詞庫15)的翻譯。使用專業 6 0991-A51341-TW/97 工 781 201020816 ::進的目的疋上了補強—般辭典只能翻譯-般用語的 '□為技術性的文早常常出現個別卫程領域的特殊專用詞, 因而必須配合使用該領域的專業辭典來翻譯。 因此’比對模組16將表三中的每個中文斷詞逐 ==專業辭典)中的第二索引比較(步驟S25),若發現有與_ 則翻譯詞取得模組17取得第二索引所對應的 t可被ϋΓ26)。在步驟S25和步驟S26中,表三的斷詞” 補強了被翻譯為reinforcement。因此最後剩下”基於 ” ❹ ==,,校舍,,等四個斷㈣法被翻譯出1於這絲過專㈣ /、仍‘,.、法翻譯的斷詞,本發明將以人卫的翻譯方式,將其對應的 =詞透過一輸入介面輸入(此步驟之細節將於以下步驟 〇27) ° 第3圖顯示根據本發明步驟奶所述之以資訊檢索為導向的 翻澤操作流程圖。根據步驟S26的輸出,其係經過一般辭典和專 2典翻譯後的結果。對於—般辭典和專業辭典翻譯所無法翻譯 的斷列,在應林發明進行自動化檢㈣,則Μ納人考慮,但 會、己錄下來’再另外以人卫的方式來判讀,並回饋給翻譯裝置 10來學習。首先,本發明判斷這些斷詞是否有斷錯的地方(步驟 S271i。舉例來說,—個句子,,纟台大停電,,,有可能於步驟S21 =,成,全、纟大”和”停電”等三個斷詞(正確應為,’全 台:、”大”和,’停電,,)。對於這類的錯誤斷詞,本發明將其 翻澤、’σ果以標點4號分號代表,並將這些錯誤的斷詞儲存 於專業辭典中(步驟S272),未來於資訊檢索時即能過濾掉這些錯 誤的斷詞。若斷詞是正確的,則判斷該斷詞是否為有意義的斷言; (步驟S273)若無意義,亦將其翻譯結果以標點符號分號,,;,, 代表並將這些無意義的斷詞儲存於專業辭典中(步驟Μ”),未 099】-A51341-TW/97 工 781 7 201020816 來於資訊檢索時即能過濾掉這些無意義之斷詞,反之則進行人工 的翻譯(步驟S274)。所謂的有意義係指該斷詞是否為有利於資訊 檢索之需’以表三所剩的斷詞來說’’編列並不常當成資訊檢 索時用以代表特定領域的查詢關鍵字’因此對資訊檢索的目的來 說並不重要,故將其以分號取代而不翻譯。而”耐震”為工程建 築領域的常用詞’屬於具有代表性的辭彙’因此以人工的方式將 其翻譯成,’ earthquake resistant” ’並透過輸入介面輸入專業辭 典中儲存。另外,”校舍”代表的是標的物’亦為重要的辭索’ 因此以人工方式將其翻譯成” sch〇01 building” 。對於”基 於,,,則因為其具有前因後果的關係’因此亦翻譯成” because of” 。 根據第3圖所示之法則,表三的内容經過人工方式的翻譯後 可如下所示: _表四:詞庫翻譯加上人工翻譯後的結果_
“because of’ funds “as soon as possible” “to advance” “earthquake resistant” seismic evaluate reinforcement job consider ought establish(或 create,build) initial evaluate method accomplish initial t4to filter” priority “to advance” “earthquake resistant” seismic capability reinforcement ’’school building” architecture_ 與從頭到尾皆以人工的翻譯結果”from the view point of cost and benefit, a preliminary evaluation method has to be established to prioritize the retrofit of school buildings according to their seismic performance from preliminary evaluation.”相比,雖然本發 明表四的翻譯結果無法構成流暢的句子,但皆保留了重要的關鍵 8 0991-A51341-TW/97 工 781 201020816 :的==檢索的目的來說,其檢索的效果應與全人工翻 本發==來說,當使用者輸入欲查詢的-或多個關鍵字時, 的關鍵字’於經過本發明翻譯處理後的文 字,則令文比對,哪些文章中出現最多次所查詢的關鍵 :貝]該文讀有可能是所f參考的文件。根據這樣的 ==)文件:優先順序的排列(根據其所包括之査詢關鍵 關用者一開始所參考的文件就會是比較相 =不會疋無關的文件而浪費了多餘的時間於資訊檢索之 詞,S明*,只要是錯誤的斷詞或沒有意義的斷 發月白不翻譯而以標點符號分號”; 詞的判斷結果儲存於專業辭i中。 =代麵每些斷 典而使得專業辭血1右舉羽可訓練專業辭 時纪錄所以〜、有學的能力°亦即專業辭典會於每次翻譯 2錄所有處理過的錯誤/無意義_,_後 分號”;,,取將其翻譯詞以標點符號 的,步驟S274 n 節省處理的時間。同樣 ^ ] ㈣人卫轉的結果亦儲存於專業辭典中供其 =_,如此一來,下次遇到之前人工翻譯過的: 可=專業辭典中找出其對應的翻譯詞而不需再次人 經驗的累積,需要人工翻譯的斷詞會愈來愈少 進而達到快速處理的目的。 另外,本發明的翻譯方法係可用程摘 :如光碟片、磁碟片與抽取式硬碟等等)之中,以便執= 程之動作。在此,翻譯方法的程式基本上μ多數個程式碼“ 所組成的,麻這些程式碼諸的功能係對應到上述方法的步^ 0991-A51341.TW/97 X. 781 9 201020816 與上述系統的功能方塊圖。 本發明雖以較佳實施例揭露如上,然其並非用以限定本發明 的範圍,任何熟習此項技藝者,在不脫離本發明之精神和範圍 内,當可做些許的更動與潤飾,因此本發明之保護範圍當視後附 之申請專利範圍所界定者為準。 參
10 0991-A51341-TW/97 工 781 201020816 【圖式簡單說明】 第1圖顯示根據本發明一實施例所述之翻譯裝置的方塊圖; 第2圖顯示根據本發明一實施例所述之翻譯裝置的操作流程 圖;以及 第3圖顯示根據本發明步驟S27所述之以資訊檢索為導向的 翻譯操作流程圖。 【主要元件符號說明】 11〜文件收集模組; 13〜虛字詞刪除模組; 15〜第二詞庫; 17〜翻譯詞取得模組。 10〜翻譯裝置; β 12〜文件斷詞模組 14〜第一詞庫; 16〜比對模組;
11 0991-A51341-TW/97 工 781

Claims (1)

  1. 201020816 七、申請專利範圍: 一種資訊檢索導㈣翻譯方法,肋翻 其中上述中文斷詞包括—第—斷詞和—第二斷詞,包括文斷詞’ 比較上述第一斷詞與一第—詞庫之複數第 . 第-詞2具有對應於上述第—索引的複數第其中上述 一翻=與上述第—斷詞相同之上述第-索51所對應的上述第 比較上述第二斷詞與一第二詞庫之複數 第二詞庫具有對應於上述第二索引的複數第二翻譯詞二中及上述 二翻=與上述第二斷詞相同之上述第二索引所對應的上述第 2 =巾請專利範圍第i項所述之翻譯方法, 詞更包括一第三斷詞。 又斷 3·如申請專㈣圍第2項所述之翻譯方法 入介面取得對應於上述第三_的翻譯I α根據一輸 參 ^中請專·項所述之翻譯方法,其中上述第一詞 '、·’、、 般辭典,上述第二詞庫係為一專業辭典。 5·如申請專利範圍第!項所述之翻譯方法,其中上述第一詞 犀與上述第二詞庫不同。 6.-種資訊檢索導向的翻譯裝置,用以翻譯複數中文斷詞, ,、中上述中文斷詞包括一第一斷詞和一第二斷詞,包括、 :第-詞庫,具有複數第—索引以及對應於上述第—索引的 複數第—翻譯詞; 、一第二詞庫,具有複數第二索引以及對應於上述第二索引的 複數第一翻譯詞; 、 、—比對模組,比較上述第一斷詞與上述第一索引,以及比較 上述第二斷詞與上述第二索引;以及 0991-A51341-TW/97X.781 12 201020816 詞取得模組,取得與上述第__相狀上述第 引所對應的上述第一翻譯詞, 曰 ’、 述第二索引所對應的上述第二翻譯:;:與上述第二斷詞相同之上 詞更==第6項所述之翻―上述中文斷 8.如申請專利範圍第7項所述之翻譯裝置,更包括 面,取得對應於上述第三_的翻譯詞。 ' 庫係專利範圍第6項所述之翻譯裝置,其中上述第一詞 庫係為一一般辭典,上述第二詞庫係為_專業辭^ 料:上如I?專利範圍第6項所述之翻譯裝置,其中上述第-3庫與上述第二詞庫不同。 11.一種儲存媒體,用以 包括複數mi心φ料料,4翻譯程式 系統執行-種資訊檢索導向的翻譯方法,上述方 中文斷詞,其中上述中文斷詞m譯複數 括: 矛鯽岡和一第二斷詞,包 比較上述第-斷詞與__第_詞庫之複數第_㈣, 第一=具有對應於上述卜索引的複數第—翻譯詞;、^ 取知與上述第一斷詞相同之上述第一 一翻譯詞; 、斤對應的上述第 其中上述 比較上述第二斷詞與一第二詞庫之複數第 第二詞:具有對應於上述第二索引的複數第二翻譯詞 應的上述第 取传與上述第二斷詞相同之上述第二索引所對 二翻譯詞。 7 其中上述中文 12.如申請專利範圍第u項所述之儲存媒體, 斷詞更包括一第三斷詞。 0991-A5134^TW/97 工 781 13 201020816 13. 如申請專利範圍第12項所述之儲存媒體,更包括根據一 輸入介面取得對應於上述第三斷詞的翻譯詞。 14. 如申請專利範圍第11項所述之儲存媒體,其中上述第一 詞庫係為——般辭典,上述第二詞庫係為一專業辭典。 15. 如申請專利範圍第11項所述之儲存媒體,其中上述第一 詞庫與上述第二詞庫不同。
    14 0991-A51341-TW/97 工 781
TW097145471A 2008-11-25 2008-11-25 Information retrieval oriented translation apparatus and methods, and storage media TW201020816A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW097145471A TW201020816A (en) 2008-11-25 2008-11-25 Information retrieval oriented translation apparatus and methods, and storage media
US12/479,459 US20100131261A1 (en) 2008-11-25 2009-06-05 Information retrieval oriented translation method, and apparatus and storage media using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW097145471A TW201020816A (en) 2008-11-25 2008-11-25 Information retrieval oriented translation apparatus and methods, and storage media

Publications (1)

Publication Number Publication Date
TW201020816A true TW201020816A (en) 2010-06-01

Family

ID=42197122

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097145471A TW201020816A (en) 2008-11-25 2008-11-25 Information retrieval oriented translation apparatus and methods, and storage media

Country Status (2)

Country Link
US (1) US20100131261A1 (zh)
TW (1) TW201020816A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424597B2 (en) * 2013-11-13 2016-08-23 Ebay Inc. Text translation using contextual information related to text objects in translated language
CN107451121A (zh) * 2017-08-03 2017-12-08 京东方科技集团股份有限公司 一种语音识别方法及其装置
KR102353381B1 (ko) * 2019-04-30 2022-01-19 정철환 작명을 지원하는 전자 장치, 방법, 및 컴퓨터 프로그램

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101185A (ja) * 1999-09-24 2001-04-13 Internatl Business Mach Corp <Ibm> 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
US7865358B2 (en) * 2000-06-26 2011-01-04 Oracle International Corporation Multi-user functionality for converting data from a first form to a second form
JP4050950B2 (ja) * 2002-07-26 2008-02-20 富士通株式会社 対訳候補表示装置および対訳候補表示プログラム
EP1567945A2 (en) * 2002-11-22 2005-08-31 Transclick, Inc. System and method for speech translation using remote devices
JP3896341B2 (ja) * 2003-04-07 2007-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
JP3920812B2 (ja) * 2003-05-27 2007-05-30 株式会社東芝 コミュニケーション支援装置、支援方法、及び支援プログラム
JP4476609B2 (ja) * 2003-12-10 2010-06-09 株式会社東芝 中国語解析装置、中国語解析方法および中国語解析プログラム
JP4404211B2 (ja) * 2005-03-14 2010-01-27 富士ゼロックス株式会社 マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP5100445B2 (ja) * 2008-02-28 2012-12-19 株式会社東芝 機械翻訳する装置および方法

Also Published As

Publication number Publication date
US20100131261A1 (en) 2010-05-27

Similar Documents

Publication Publication Date Title
US11468238B2 (en) Data processing systems and methods
US10296584B2 (en) Semantic textual analysis
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US10339122B2 (en) Enriching how-to guides by linking actionable phrases
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
JP4995950B2 (ja) フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
CN102779149A (zh) 信息处理装置,信息处理方法,程序和信息处理系统
US20210133264A1 (en) Data Processing Systems and Methods
CN107436922A (zh) 文本标签生成方法和装置
CN102156712A (zh) 一种基于云存储的电力信息检索方法及系统
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
WO2021092272A1 (en) Qa-bots for information search in documents using paraphrases
US20120317125A1 (en) Method and apparatus for identifier retrieval
US11783112B1 (en) Framework agnostic summarization of multi-channel communication
Şahin et al. LLM and RAG-Based Question Answering Assistant for Enterprise Knowledge Management
TW201020816A (en) Information retrieval oriented translation apparatus and methods, and storage media
Wang et al. Document segmentation matters for retrieval-augmented generation
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
CN113627200B (zh) 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法
Klang et al. Linking, searching, and visualizing entities in wikipedia
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
Zuo et al. Cross-genre retrieval for information integrity: a COVID-19 case study
Liu et al. Improving topic relevance model by mix-structured summarization and llm-based data augmentation
Hakkani-Tür et al. Using information extraction to improve cross-lingual document retrieval