CN1641635B - 计算机可执行的字/词匹配与查询的系统及其方法 - Google Patents
计算机可执行的字/词匹配与查询的系统及其方法 Download PDFInfo
- Publication number
- CN1641635B CN1641635B CN 200410001649 CN200410001649A CN1641635B CN 1641635 B CN1641635 B CN 1641635B CN 200410001649 CN200410001649 CN 200410001649 CN 200410001649 A CN200410001649 A CN 200410001649A CN 1641635 B CN1641635 B CN 1641635B
- Authority
- CN
- China
- Prior art keywords
- word
- character
- database
- translation
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种计算机可执行的字/词匹配与查询的系统及其方法,其系统包含一数据库,提供字/词与其对应的解释以供查询之用;一文字辨识模块,根据画面上的文字,经过辨识之后产生一待查询的字/词;一判断模块,根据该待查询字/词的字母大小写,决定一对应规则;一查询模块,用以根据该对应规则查询该数据库中是否有一完全匹配的字/词;一拼写校正与模糊查询模块,当没有该完全匹配的字/词时,于该数据库中找出一最近似的字/词;及一输出模块。其方法为判断待查询的字/词是否属于整句文字全大写与是否为首字母大写的情形,根据一预定的对应规则于数据库中匹配一合适的字/词,以正确匹配字/词与正确显示其翻译结果。
Description
技术领域
本发明涉及一种关于数据处理的系统及其方法,可应用于电子字典上,特别是一种藉由判断字/词大小写的情况,以进行字/词匹配与查询的系统及方法。
背景技术
一般而言,计算机所显示的画面中会有许多不认识的外语生字,这些生字有的是单字,有的是词组。对于这些生字可藉由查询电子字典(翻译软件)的方式,以便能够了解其含义,弥补因为语言能力不足所产生的障碍。电子字典除了提供字/词的翻译查询之外,更提供了许多的附加功能,例如全文翻译、网页翻译或实时翻译等,这些附加的功能使得翻译更快速且更方便。以全文翻译为例,其特色是一次可翻译大量的字汇,并且加以组织成为有意义的文句,免除掉一个字一个字慢慢查询的缺点。以实时翻译为例,其特色是操作上的方便,只要通过光标接触画面上待查询的字/词,随即会显示出一窗口并显示此待查询的字/词的翻译,使用者不需逐字输入便可获得字/词的翻译。
举例来说,当使用者开启一外语的电子文件阅读的时候,以往遇到不认识的外语生字时,必须翻阅外语字(辞)典以获得此一外语生字的含义,但是,翻阅字(辞)典相当不方便且查询生字所花费的时间也较长,因此较快的查询方式是利用计算机中的电子字典作为辅助。利用电子字典查询外语生字,只要输入待查询字/词便能获得有关该字/词的解释,相当方便且快速。虽然电子字典查询字/词的处理速度相当快,但是在字/词的输入上还是要花费一些时间,此为其美中不足的地方,因此更快且更方便的查询方法为利用电子字典附加的功能,例如全文翻译、网页翻译或实时翻译等。
以下我们以实时翻译为例,说明其运作方式以及存在的问题。如图1所示,为实时翻译运作的流程图。当电子字典的实时翻译功能启动时,会根据光标所在位置撷取一个待查询的字/词(步骤100);并根据所撷取的字/词与数据库进行匹配,查询待查询的字/词在数据库中是否存在一个可完全匹配的字/词(步骤110);如果在数据库中可以找到一个完全匹配的字/词,则显示此待查询的字/词的解释(步骤130);如果在数据库中找不到可以完全匹配的字/词,则执行拼写校正与模糊查询(步骤120),于找数据库中找出一个与待查询的字/词最近似的字/词,然后显示此最近似的字/词的解释(步骤130)。虽然利用实时翻译功能不需要键盘输入的操作,只需利用鼠标便可完成查询生字的目的,但是在某些情况下,不一定能正确地显示出待查询的字/词的正确解释。例如待查询的字/词出现在句首或标题行的时候,可能会以第一个字母大写或是整句全大写的型态出现,而某些字/词偏偏又存在大写形式与小写形式不同意义的解释。在这种情形下查询这类字/词时,会导致待查询的字/词与数据库匹配出不正确的翻译结果,因而所显示的并不是使用者实际想要的查询结果。
以下以具体的实例作为说明,我们以经常使用的单字as为例,其大写的AS有两种解释,分别为“Anglo-Saxon”,即“盎格鲁撒克逊人”与“antisubmarine”,即“反潜艇的”;其小写的as有多种解释,例如,像...一样、作为、如同...等,其大小写翻译的解释截然不同.因此,当整句文字全大写或首字母大写时,例如,AS IT IS...或As it is...等的情况下,应该是以小写形式的as为其翻译结果,然而字/词匹配的结果,却会以大写的AS为其匹配的字/词,故产生翻译不正确的情形。以AS IT IS为例,因为在数据库中可找到一个与AS完全匹配的字/词,亦即大写的AS。以As it is为例,虽然无法完全匹配一个As的字/词,但是,经过拼写校正与模糊查询的结果,其匹配的字/词为AS,而不是as。上述的两种情形,会造成输出不正确的翻译结果,这显然不是使用者希望看到的查询结果。同样地,这一类的情形也可能发生在电子字典的其它附加功能上,例如全文翻译功能、网页翻译等。
发明内容
鉴于前述有关于电子字典的附加功能所存在的问题,本发明提出一种计算机可执行的字/词匹配与查询的系统及其方法,主要的目的是通过判断待查询的字/词的是否属于整句文字全大写与是否为首字母大写的状态,然后采取适当的对应规则,以解决过去待查询的字/词与数据库匹配不正确的情形,达到正确匹配字/词与正确显示其翻译结果的目的。例如,当待查询的字/词属于整句文字全大写时,对于待查询的字/词所采取的对应规则应该先以其小写形式查询,当小写形式无法与数据库完全匹配时,再采取其它对应规则。同样的,当待查询的字/词为首字母大写的情形时,对于待查询的字/词所采取的对应规则也应该先以其小写形式查询。
为了达到上述目的,本发明提供一种计算机可执行的字/词匹配与查询的系统,其中该系统包含有:一数据库,该数据库是建立于一计算机可存取的储存介质,储存字/词与其对应的解释;一文字辨识模块,取得自一输入装置输入的文字,并对该文字进行辨识以产生一待查询的字/词;一判断模块,根据该待查询字/词的字母大小写,决定一对应规则;一查询模块,该查询模块根据该对应规则自该数据库中查找出一完全匹配的字/词,及相应该完全匹配的字/词的翻译;一拼写校正与模糊查询模块,当该查询模块未查找到该完全匹配的字/词时,于该数据库中找出一最近似的字/词,及该最近似的字/词的翻译;及一视讯输出装置,用以输出该完全匹配的字/词的翻译与该最近似的字/词的翻译。
本发明还提供一种计算机可执行的字/词匹配与查询的方法,适用于以一计算机执行下列步骤:取得自一输入装置所输入的一待查询的字/词;根据该待查询的字/词字母大小写的判断,决定一对应规则;根据该对应规则判断一数据库中查找出一完全匹配的字/词,及相应该完全匹配的字/词的翻译;根据该对应规则于该数据库中未查找到完全匹配的字/词时,则以一拼写校正与模糊查询模块执行一拼写校正与模糊查询功能,并于该数据库中找出一最近似的字/词,及该最近似的字/词的翻译;及以一视讯输出装置输出该完全匹配的字/词的翻译或该最近似的字/词的翻译。
也就是说,本发明所提供的计算机可执行的字/词匹配与查询的系统及其方法,必须先行判断待查询的字/词是否属于整句文字全大写与首字母大写的状态,然后根据一预定的查询规则,于数据库中匹配一个合适的字/词,并以其相对应的解释为输出的翻译结果。有关本发明具体可行的实施方式,兹就配合附图说明如下:
附图说明
图1为实时翻译运作的流程图;
图2为本发明所提的计算机可执行的字词匹配与查询的系统及其方法的硬件架构图;
图3为本发明所提的计算机可执行的字/词匹配与查询的系统及其方法的系统架构图;
图4为本发明所提的计算机可执行的字/词匹配与查询的系统及其方法的详细流程图。
其中,附图标记说明如下:
21 输入装置 22 中央处理单元
23 视讯输出装置
31 数据库 32 文字辨识模块
33 判断模块 34 查询模块
35 拼写校正与模糊查询模块 36 输出模块
步骤100撷取待查询的字/词
步骤110查询待查询的字/词与数据库是否完全匹配
步骤120执行拼写校正与模糊查询功能
步骤130输出翻译结果
步骤400撷取待查询的字/词
步骤410判断是否整句文字全大写
步骤420以小写形式查询
步骤430判断小写形式是否与数据库完全匹配
步骤440输出结果
步骤450执行拼写校正与模糊查询功能
步骤460以原字/词形式查询
步骤470判断原字/词形式是否与数据库完全匹配
步骤480判断是否首字母大写
具体实施方式
如图2所示,为计算机可执行的字/词匹配与查询的系统及其方法的硬件架构图。为具有输入装置21、中央处理单元22和视讯输出装置23所组成的计算机系统。其输入装置21可以是键盘、鼠标、数字板、光笔等可以操作画面上所产生光标的装置,其视讯输出装置23亦可以是屏幕、液晶显示屏幕、触控屏幕等显示接口,用以提供使用者进行视觉接收的装置。
如图3所示,为计算机可执行的字/词匹配与查询的系统及其方法的系统架构图。其包含维持系统运作所需的数据库31、文字辨识模块32、判断模块33、查询模块34、拼写校正与模糊查询模块35及输出模块36。如上所述的各模块,兹分别说明如下:
数据库31,即为字(辞)典数据库,其包含:字/词字段,提供丰富的单字与单词以供查询;解释字段,提供单字与单词的相对应的解释。
文字辨识模块32,藉以撷取画面上的字/词产生一可供查询的单字或单词,亦即经过辨识之后产生一个待查询的字/词。
判断模块33,判断待查询的字/词是否属于整句文字全大写,然后决定相对应的对应规则。如果待查询的字/词属于整句文字全大写,则先以待查询的字/词的小写形式查询,否则先以待查询的字/词的原始形式查询。当待查询的字/词的原始形式无法与数据库完全匹配时,再来判断待查询的字/词是否为首字母大写,然后采取相对应的对应规则,如果待查询的字/词为首字母大写,则以待查询的字/词的小写形式查询,否则执行拼写校正与模糊查询功能。
查询模块34,根据判断模块33的对应规则与数据库31进行匹配,根据匹配的结果产生相对应的处理策略。当待查询的字/词的对应规则与数据库完全匹配时,其处理策略为输出待查询的字/词的解释;当待查询的字/词的对应规则与数据库无法匹配时,其处理策略有二,其一为判断待查询的字/词是否为首字母大写,再根据其对应规则查询;另一为当已经判断过待查询的字/词是否为首字母大写,则执行拼写校正与模糊查询功能。
拼写校正与模糊查询模块35,此模块的功能是为于数据库31中找出一个与待查询的字/词最近似的字/词,并输出其相对应的解释作为查询结果。而执行拼写校正与模糊查询模块35有两个时机,其一为当待查询的字/词的对应规则与数据库31无法匹配时,另一为判断模块33判断待查询的字/词不是首字母大写时。
输出模块36,用以输出翻译结果,其为产生一个窗口,并利用此窗口显示翻译结果。其输出的信息包含所匹配的字词与其相对应的解释,亦即所显示的解释可为完全匹配的结果或模糊查询的结果。
如图4所示,为本发明的计算机可执行的字/词匹配与查询的系统及其方法的详细流程图,亦为本发明较佳实施例。其流程为撷取一个待查询的字/词(步骤400);判断待查询的字/词是否为整句文字全大写(步骤410),如果待查询的字/词属于整句文字全大写,则以待查询的字/词的小写形式查询(步骤420);然后判断数据库中是否有完全匹配的字/词(步骤430),如果有完全匹配的字/词,则输出其翻译结果(步骤440);如果没有完全匹配的字/词,则执行拼写校正与模糊查询功能,匹配一个和待查询的字/词最近似的字/词(步骤450),然后输出其翻译结果(步骤440);如果待查询的字/词不是整句文字全大写,则以待查询的字/词的原字/词查询(步骤460),判断数据库中是否有完全匹配的字/词(步骤470),如果有完全匹配的字/词,则输出其翻译结果(步骤440);如果没有完全匹配的字/词,则判断待查询的字/词是否为首字母大写(步骤480),如果待查询的字/词为首字母大写,则以待查询的字/词的小写形式查询(步骤420),否则执行拼写校正与模糊查询功能(步骤450)。
以上所述,仅为本发明其中的较佳实施例而已,并非用来限定本发明的实施范围;即凡依本发明专利范围所作的均等变化与修饰,皆为本发明专利范围所涵盖。
Claims (8)
1.一种计算机可执行的字/词匹配与查询的系统,其中该系统包含有:
一数据库,该数据库是建立于一计算机可存取的储存介质,储存字/词与其对应的解释;
一文字辨识模块,取得自一输入装置输入的文字,并对该文字进行辨识以产生一待查询的字/词;
一判断模块,根据该待查询的字/词的字母大小写,决定一对应规则;
一查询模块,该查询模块根据该对应规则自该数据库中查找出一完全匹配的字/词,及相应该完全匹配的字/词的翻译;
一拼写校正与模糊查询模块,当该查询模块未查找到该完全匹配的字/词时,于该数据库中找出一最近似的字/词,及该最近似的字/词的翻译;及
一视讯输出装置,用以输出该完全匹配的字/词的翻译与该最近似的字/词的翻译。
2.如权利要求1所述的计算机可执行的字/词匹配与查询的系统,其中该判断模块更包含一整句文字全大写判断模块,用以判断该待查询的字/词是否属于整句文字全大写。
3.如权利要求1所述的计算机可执行的字/词匹配与查询的系统,其中该判断模块更包含一首字母大写判断模块,用以判断该待查询的字/词是否为首字母大写。
4.如权利要求1所述的计算机可执行的字/词匹配与查询的系统,其中该对应规则为以该待查询的字/词的小写形式查询、原始形式查询及以拼写校正与模糊查询方式查询的群组组合。
5.一种计算机可执行的字/词匹配与查询的方法,适用于以一计算机执行下列步骤:
取得自一输入装置所输入的一待查询的字/词;
根据该待查询的字/词字母大小写的判断,决定一对应规则;
根据该对应规则判断自一数据库中查找出一完全匹配的字/词,及相应该完全匹配的字/词的翻译;
根据该对应规则于该数据库中未查找到完全匹配的字/词时,则以一拼写校正与模糊查询模块执行一拼写校正与模糊查询功能,并于该数据库中找出一最近似的字/词,及该最近似的字/词的翻译;及
以一视讯输出装置输出该完全匹配的字/词的翻译或该最近似的字/词的翻译。
6.如权利要求5所述的计算机可执行的字/词匹配与查询的方法,其中该字母大小写判断,为判断该待查询的字/词是否属于整句文字全大写。
7.如权利要求5所述的计算机可执行的字/词匹配与查询的方法,其中该字母大小写判断,为判断该待查询的字/词是否属于首字母大写。
8.如权利要求5所述的计算机可执行的字/词匹配与查询的方法,其中该对应规则为以该待查询的字/词的小写形式查询、原字/词查询及以拼写校正与模糊查询方式查询的群组组合。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN 200410001649 CN1641635B (zh) | 2004-01-09 | 2004-01-09 | 计算机可执行的字/词匹配与查询的系统及其方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN 200410001649 CN1641635B (zh) | 2004-01-09 | 2004-01-09 | 计算机可执行的字/词匹配与查询的系统及其方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN1641635A CN1641635A (zh) | 2005-07-20 |
| CN1641635B true CN1641635B (zh) | 2010-05-05 |
Family
ID=34867170
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN 200410001649 Expired - Fee Related CN1641635B (zh) | 2004-01-09 | 2004-01-09 | 计算机可执行的字/词匹配与查询的系统及其方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN1641635B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN100449542C (zh) * | 2005-09-14 | 2009-01-07 | 腾讯科技(深圳)有限公司 | 匹配联系人信息的方法及装置 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0844748A (ja) | 1994-08-01 | 1996-02-16 | Nec Corp | 機械翻訳システム |
| CN1250915A (zh) * | 1998-10-09 | 2000-04-19 | 英业达股份有限公司 | 即时翻译系统 |
| GB2356074A (en) * | 1999-11-02 | 2001-05-09 | Seiko Instr Inc | Electronic dictionary |
-
2004
- 2004-01-09 CN CN 200410001649 patent/CN1641635B/zh not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0844748A (ja) | 1994-08-01 | 1996-02-16 | Nec Corp | 機械翻訳システム |
| CN1250915A (zh) * | 1998-10-09 | 2000-04-19 | 英业达股份有限公司 | 即时翻译系统 |
| GB2356074A (en) * | 1999-11-02 | 2001-05-09 | Seiko Instr Inc | Electronic dictionary |
Also Published As
| Publication number | Publication date |
|---|---|
| CN1641635A (zh) | 2005-07-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6393389B1 (en) | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions | |
| CN101779200B (zh) | 词典词和短语确定方法和设备 | |
| CN102124459B (zh) | 词典词和短语确定 | |
| US8726148B1 (en) | Method and apparatus for processing text and character data | |
| US9734197B2 (en) | Determining corresponding terms written in different formats | |
| CN102567509B (zh) | 视觉信息辅助的即时通信方法及系统 | |
| CN101815996A (zh) | 检测名称实体和新词 | |
| CN102016836A (zh) | 管理电子形式的中文、日文及韩文语言数据的模组系统与方法 | |
| JP2004516527A (ja) | クロス言語ライティングウィザードを伴うコンピュータ支援ライティングのシステムおよび方法 | |
| JP2003514304A (ja) | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ | |
| JP2000200291A (ja) | 選択された文字列をテキスト内で自動検出する方法 | |
| JP2003527676A (ja) | モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ | |
| CN101251844A (zh) | 用于检索内容的设备和方法 | |
| WO2022135474A1 (zh) | 信息推荐方法、装置及电子设备 | |
| CN101211245A (zh) | 文字输入装置 | |
| CN104077346A (zh) | 文档制作支援装置、方法及程序 | |
| Randhawa et al. | Study of spell checking techniques and available spell checkers in regional languages: a survey | |
| WO2006115825A2 (en) | Abbreviated handwritten ideographic entry phrase by partial entry | |
| CN1641635B (zh) | 计算机可执行的字/词匹配与查询的系统及其方法 | |
| WO2024164976A1 (zh) | 样本构建方法、装置、电子设备及可读存储介质 | |
| JPH11238051A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 | |
| Saharia et al. | LuitPad: a fully unicode compatible Assamese writing software | |
| TWI259379B (en) | Computer executable word/phrase matching and inquiring system and method thereof | |
| JPH07114565A (ja) | 電子辞書 | |
| US20250094828A1 (en) | Knowledge graph for semantic searching of handwritten documents |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant | ||
| C17 | Cessation of patent right | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100505 Termination date: 20120109 |