CN106201012A

CN106201012A - 词组拆分方法及装置

Info

Publication number: CN106201012A
Application number: CN201610515796.3A
Authority: CN
Inventors: 张月川
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2016-12-07

Abstract

本发明实施例提供一种词组拆分方法及装置，涉及信息处理技术领域，所述方法包括：获取待拆分词组；根据预设策略提取所述待拆分词组中的词汇；在所述词汇与预设词汇数据库中的词汇一致时，在所述待拆分词组中拆分出所述词汇。本发明实施例提供的词组拆分方法及装置，通过根据预设策略提取所述待拆分词组中的词汇，在所述词汇与预设词汇数据库中的词汇一致时，在所述待拆分词组中拆分出所述词汇，避免了因词汇确定错误导致的词组拆分错误，提高了词组拆分的正确率。

Description

词组拆分方法及装置

技术领域

本发明实施例涉及信息处理技术领域，尤其涉及一种词组拆分方法及装置。

背景技术

用户在使用终端设备进行日常操作时，经常会遇到需要在不同的类别栏输入不同信息的情况，例如：在创建联系人时，输入界面中会出现姓氏栏和名字栏，让用户分别输入联系人的姓氏和名字；用户在填写邮寄地址时，输入界面会出现省市栏、区域栏及具体地址栏等。用户为方便输入，通常将所有信息构成的词组输入在一个类别栏里，例如将联系人姓氏和名字同时输入在姓氏栏或名字栏中，将邮寄地址同时输入在省市栏中等等。

为方便管理信息，终端设备需要对填写在同一类别栏中的信息词组进行拆分，并将拆分出的各部分放置到预设类别栏中。以姓名为例，现有技术根据联系人姓名的字数来确定联系人姓氏，根据确定的姓氏对同时输入在姓氏栏或名字栏中的联系人姓名进行拆分，将拆分出的姓氏和名字分别设置到相应栏里。例如当用户名为两个字时，将第一个字默认为姓氏，将第二个字默认为名字，当用户名为三个字时，将第一个字默认为姓氏，后两个字默认为名字。

发明人在实现本发明的过程中发现：根据现有技术提供的姓名拆分方法，由于姓氏确定错误导致的拆分错误率极高，例如当联系人的姓氏为复姓时，姓名拆分时就会出现错误。

发明内容

本发明实施例提供一种词组拆分方法及装置，用以解决现有技术中因词组拆分错误导致的词组拆分错误。

本发明实施例提供一种词组拆分方法，包括：

获取待拆分词组；

根据预设策略提取所述待拆分词组中的词汇；

在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇。

本发明实施例提供一种词组拆分装置，包括：

获取模块，用于获取待拆分词组；

提取模块，用于根据预设策略提取所述待拆分词组中的词汇；

判断模块，用于判断所述词汇与预设词汇数据库中的词汇是否一致；

拆分模块，用于在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇。

本发明实施例提供的词组拆分方法及装置，通过根据预设策略提取所述待拆分词组中的词汇，在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇，避免了因词汇确定错误导致的词组拆分错误，提高了词组拆分的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种词组拆分方法流程图；

图2为本发明实施例提供的根据预设策略提取所述待拆分词组中的词汇的方法示意图；

图3为本发明实施例提供的另一种词组拆分方法流程图；

图4为本发明实施例提供的一种姓名拆分方法流程图；

图5为本发明实施例提供的词组拆分装置结构示意图；

图6为本发明实施例提供的另一词组拆分装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用户在使用终端设备进行日常操作时，经常会遇到需要在不同的类别栏输入不同信息的情况，例如：在创建联系人时，输入界面中会出现姓氏栏和名字栏，让用户分别输入联系人的姓氏和名字；用户在填写邮寄地址时，输入界面会出现省市栏、区域栏及具体地址栏等，让用户分别输入省市、区域及具体地址等信息；当用户将部分或所有信息构成的词组都输入在一个类别栏里时适用于本申请提供的技术方案。

实施例1

图1为本发明实施例提供的一种词组拆分方法流程图，如图1所示，包括：

步骤101：获取待拆分词组；

具体地，所述待拆分词组可以包括姓名、地址等具体词组，还可以包括电话号码等抽象词组，本发明不做限定；所述待拆分词组可以包括两个词汇(例如姓名包括姓氏和名字)，还可以包括两个以上的词汇(例如地址包括省、市、区域等)，本发明不做限定；

具体地，终端设备可以显示词组的输入界面，所述输入界面包括两个或两个以上的输入栏，所述输入栏的个数可以根据使用需要设置；获取用户在任一所述输入栏中输入的待拆分词组，所述待拆分词组中包括与所述输入栏对应的词汇；

步骤102：根据预设策略提取所述待拆分词组中的词汇；

参见图2，具体可以包括：

步骤102a：获取待拆分词组的组成信息，所述待拆分词组包含一专有词汇；

所述专有词汇包括人们约定俗成或按规定固定使用的名词等，例如姓名中的姓氏、地址中的城市名、电话号码中的区号等，本发明不做限定，例如姓名“张三”中的专有词汇为姓氏“张”，地址“朝阳区三里屯”中的专有词汇为“朝阳区”，电话号码“010-6666666”中的专有词汇为“010”；

所述词组的组成信息可以包括组成字数、词组的各组成部分和/或各组成部分在所述词组中的位置，例如“张三”的组成信息可以包括：组成部分姓氏“张”和名字“三”、组成字数为2个字、姓氏“张”在前名字“三”在后；

步骤102b：根据所述组成信息确定所述专有词汇的可选字数；

具体地，特定词组一般具有固定的组成方式，例如，在我国姓名一般是姓氏在前名字在后，英文名字通常姓氏在后名字在前，地址一般是大地域名在前小地域名在后，电话号码一般是区号在前本地号码在后等等；根据词组的字数和/或组成方式可以大致确定专有词汇的可选字数，例如当一个词组为中文名字时，根据名字的字数为3个字可以确定姓氏(专有词汇)的可选字数为1个字或2个字，当一个词组为地址时，假设所述地址为“朝阳奥体东”根据地址的组成(区+地名)和字数(5个字)可以确定区名(专有词汇)的可选字数为2个(例如朝阳)字或3个字(例如朝阳区)；

步骤102c：选择一所述可选字数作为提取字数；

具体地，例如当所述词组为3个字的名字时，姓氏可选字数为1个字或2个字，选择1个字作为提取字数或者选择2个字作为提取字数；当所述词组为5个字的地址(组成方式为区+地名)时，区名的可选字数为2个字或3个字，选择3个字作为提取字数或者选择2个字作为提取字数；

步骤102d：根据所述组成信息及所述提取字数从所述词组中提取待选专有词汇；

具体地，根据组成信息确定所述专有词汇在所述词组中的位置，所述位置包括前部分、后部分，甚至还可以包括中间部分，然后从前或者从后或者从中间按照所述提取字数提取所述专有词汇，例如姓名“张某三”姓氏在姓名的前部分，选择的专有词汇的提取字数为1个，提取姓名开头的1个字“张”作为待选专有词汇；

在其他实施例中，还可以通过其他提取、拆分策略从待拆分词组中拆分词汇，本发明不做限定；

步骤103：在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇。

具体地，本发明实施例根据词汇的类别，利用数据挖掘和/或数据统计的方法收集到所述词汇的类别下的所有词汇，形成预设词汇数据库；所述预设词汇数据库例如，包含所有姓氏的预设姓氏数据库、包含所有省份名称的预设省名数据库、包含所有电话区号的预设区号数据库等等；

具体地，在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇，在终端设备显示界面上的与输入栏对应的位置显示与所述输入栏对应的词汇。

本发明实施例提供的词组拆分方法，通过根据预设策略提取所述待拆分词组中的词汇，在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇，避免了因词汇确定错误导致的词组拆分错误，提高了词组拆分的正确率。

实施例2

图3为本发明实施例提供的一种词组拆分方法流程图，如图3所示，包括：

步骤201：获取待拆分词组；

步骤202：在所述待拆分词组中提取第一预设字数的第一词汇；

具体地，所述预设字数可以根据所述词汇的属性确定；例如，所述词汇为姓氏，姓氏的字数一般包括1个字或2个字，因此，拆分姓名时，所述预设字数可以包括1个字或2个字；又如，所述词汇为城市名，城市名一般包括2个字、3个字或4个字，因此，拆分地址时，所述预设字数可以包括2个字、3个字或4个字；再如，所述词汇为区号，区号一般包括3个数字或4个数字，因此拆分长途电话号码时，所述预设字数可以包括3个或4个；

进一步地，根据所述待拆分词组的字数确定预设字数的选择范围，所述预设字数包括所述第一预设字数和所述第二预设字数；

具体地，待拆分词组的组成部分通常都是预先设置好的，而各部分的属性(例如姓氏的一般字数、省市名称的一般字数等)也是可预知的，因此，根据获取到的所述待拆分词组的字数，可以判断出各组成部分的字数范围；

例如，当所述待拆分词组包括由市、区、乡三部分组成的地址时，以地址“北京市朝阳区平房乡”为例，用户输入地址信息时为了省时省力，通常会输入“北京朝阳平房”，此时根据获取到的待拆分词组的字数，即6个字，即可判断出城市名的预设字数的选择范围为数字2或数字3；

通过根据待拆分词组的字数确定预设字数的选择范围，缩小了预设字数的选择范围，省略了不必要的提取、匹配步骤，提高了拆分词组的效率。

进一步地，按照预设字数由多到少的原则设置所述选择范围内的预设字数的使用优先级；即，在提取词汇时先提取最多预设字数的词汇，最后提取最少预设字数的词汇；

例如姓名“上官某”的姓氏可选字数为1个字或2个字，当选择1个字作为提取时的预设字数时，提取的待选姓氏为“上”，而待选姓氏数据库中没有与“上”匹配的姓氏，则选择2个字为提取时的预设字数，此时提取的待选姓氏为“上官”，待选姓氏数据库中存在与“上官”匹配的姓氏，因此确定“上官”为名字“上官某”的姓氏；但是，例如姓名“令狐某”的姓氏可选字数为1个字或2个字，当优先选择1作为提取时的预设字数时，提取到的姓氏为“令”，而预设姓氏数据库中存在姓氏“令”也存在姓氏“令狐”，此时就会导致拆分错误，因此提取词汇时优先使用预设字数2；

通过按照预设字数由多到少的原则设置所述选择范围内的预设字数的使用优先级，避免了由于预设词汇数据库中存在与所述词汇的一部分匹配的词汇而导致的词组拆分错误；例如复姓“令狐”，姓氏数据库中既有“令”又有“令狐”。

步骤203：判断所述第一词汇与预设词汇数据库的词汇是否一致；

具体地，本发明实施例根据词汇的类别，利用数据挖掘和/或数据统计的方法收集到所述词汇的类别下的所有词汇，形成预设词汇数据库；所述预设词汇数据库，例如，包含所有姓氏的预设姓氏数据库、包含所有省份名称的预设省名数据库、包含所有电话区号的预设区号数据库等等；

具体地，将所述第一词汇与所述预设词汇数据库中的词汇进行比对，确定所述预设词汇数据库中是否存在与所述第一词汇一致的词汇；

若所述第一词汇与预设词汇数据库中的词汇一致时，则进行步骤204；若所述第一词汇与预设词汇数据库中的词汇不一致，则进行步骤205；

步骤204：在所述待拆分词组中拆分出所述第一词汇；

步骤205：在所述待拆分词组中提取第二预设字数的第二词汇。

具体地，进一步判断所述第二词汇与预设词汇数据库的词汇是否一致；若所述第二词汇与预设词汇数据库中的词汇一致时，则在所述待拆分词组中拆分出所述第二词汇；若所述第二词汇与预设词汇数据库中的词汇不一致，继续在所述待拆分词组中提取第三预设字数的第三词汇，直至所述词汇与预设词汇数据库中的词汇一致。

本发明实施例提供的词组拆分方法，通过根据预设策略提取所述待拆分词组中的词汇，在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇，避免了因词汇确定错误导致的词组拆分错误，提高了词组拆分的正确率；同时，根据预设字数依次提取词汇直至所述词汇与预设词汇数据库中的词汇一致时拆分出所述词汇，操作方法简单易行且能够保证词组拆分的正确率。

进一步地，当所述待拆分词组包括三个或三个以上词汇时，本发明实施例提供的词组拆分方法，还包括：

根据预设策略继续提取所述待拆分词组剩余部分中的词汇，在提取的所述待拆分词组剩余部分中的词汇与预设词汇数据库中的词汇一致时，在所述待拆分词组剩余部分中拆分出所述词汇，直至拆分后剩余的部分不能再被拆分为止；

其中，所述待拆分词组剩余部分为所述待拆分词组拆分出至少一个词汇后剩下的部分，并且所述待拆分词组剩余部分仍然为一个可以拆分的词组；所述预设词汇数据库可以包括包含多个子数据库的大数据库，所述多个子数据库分别与所述待拆分词组的不同的词汇对应；所述预设词汇数据库还可以包括多个不同的单独的词汇数据库，所述多个不同的单独的词汇数据库分别与所述待拆分词组的不同的词汇对应，本发明不做限定；

例如，所述待拆分词组包括包含市、区、乡的地址，以“北京市朝阳区平房乡”为例，当按照上述方法拆分出专有词汇“北京市”后，所述待拆分词组剩余部分为“朝阳区平房乡”仍然为一个需要拆分的词组，此时继续根据预设策略继续提取、拆分出另一个专有词汇“朝阳区”，具体提取、拆分方法包括：根据“朝阳区平房乡”的字数确定区名的预设字数范围为2个字或3个字，提取3个字“朝阳区”，将“朝阳区”与预设区名数据库中的区名进行匹配，当“朝阳区”与预设区名数据库中的区名一致时，从“朝阳区平房乡”中提取出“朝阳区”；其中所述预设区名数据库可以为单独的数据库，也可以为预设词汇数据库的一个子数据库，本发明不做限定；

通过根据预设策略继续提取所述待拆分词组剩余部分中的词汇，在提取的所述待拆分词组剩余部分中的词汇与预设词汇数据库中的词汇一致时，在所述待拆分词组剩余部分中拆分出所述词汇，能够保证所述待拆分词组被充分拆分，便于输入信息的进一步细化管理。

实施例3

具体地，本发明实施例中所述词组包括名字，图4为本发明实施例提供的一种姓名拆分方法流程图，如图4所示，所述方法包括：

步骤301：获取姓名的组成信息；

具体地，所述姓名的组成信息包括姓名字数，甚至还可以包括姓氏和名字的前后顺序等信息；

步骤302：根据所述姓名的组成信息确定所述姓名所包含的姓氏的可选字数；

具体地，例如所述姓名的字数为3个字，则所述姓氏的可选字数为1个字或2个字；

步骤303：选择一所述可选字数作为提取姓氏的预设字数；

步骤304：从所述姓名中提取所述预设字数的待选姓氏；

步骤305：将提取的所述待选姓氏与预设的姓氏数据库进行匹配；

步骤306：当所述预设的姓氏数据库中存在与所述待选姓氏匹配的姓氏时，确定所述待选姓氏为所述姓名的姓氏。

通过按照姓名的组成信息选择待选姓氏，然后将所述待选姓氏与预设的姓氏数据库进行比对，当所述预设的姓氏数据库中存在与所述待选姓氏匹配的姓氏时，确定所述待选姓氏为所述姓名的姓氏，避免了因姓氏确定错误导致的名字拆分错误，提高了名字拆分的正确率。

以下为本发明实施例提供的词组拆分方法的应用示例：

手机、pad、笔记本电脑等用户设备的联系人信息输入界面依次分栏显示联系人姓氏输入框及联系人名字输入框；用户为输入方便在姓氏栏里输入了姓名，用户设备获取用户输入的姓名的组成信息，假设用户输入的姓名为“上官某”，用户设备根据姓名的字数确定姓名中的姓氏的可选字数为2个或1个，用户设备先提取姓名开头的2个字“上官”作为待选姓氏，将“上官”与姓氏数据库进行匹配，得到与其匹配的姓氏，则确定用户输入的姓氏为“上官”，将“上官”设置到姓氏栏里，将“某”设置到名字栏里。

实施例4

为了实现上述实施例提供的词组拆分方法，本发明实施例提供了一种词组拆分装置，图5为本发明实施例提供的词组拆分装置结构示意图，如图5所示，所述装置包括：

获取模块10，用于获取待拆分词组；

提取模块20，与获取模块10连接，用于根据预设策略提取所述待拆分词组中的词汇；

判断模块30，与提取模块20连接，用于判断所述词汇与预设词汇数据库中的词汇是否一致；

拆分模块40，与判断模块30连接，用于在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇。

本发明实施例提供的词组拆分装置，通过根据预设策略提取所述待拆分词组中的词汇，在预设词汇数据库中存在与所述词汇一致的词汇时，在所述待拆分词组中拆分出所述词汇，避免了因词汇确定错误导致的词组拆分错误，提高了词组拆分的正确率。

实施例5

为了实现上述实施例提供的词组拆分方法，本发明实施例提供了一种词组拆分装置，包括实施例4中的获取模块10、提取模块20、判断模块30以及拆分模块40，图6为本发明实施例提供的词组拆分装置结构示意图，如图6所示，所述装置还包括：

提取模块20，用于在所述待拆分词组中提取第一预设字数的第一词汇；

判断模块30，用于判断所述第一词汇与预设词汇数据库中的词汇是否一致；

提取模块20，还用于若所述第一词汇与预设词汇数据库中的词汇不一致，则在所述待拆分词组中提取第二预设字数的第二词汇。

根据预设字数依次提取词汇直至所述词汇与预设词汇数据库中的词汇一致时拆分出所述词汇，操作方法简单易行且能够保证词组拆分的正确率。

进一步地，本发明实施例提供的装置，还包括：

确定模块50，其输入端与获取模块10连接，其输出端与提取模块20连接，用于根据所述待拆分词组的字数确定预设字数的选择范围，所述预设字数包括所述第一预设字数和所述第二预设字数。

进一步地，确定模块50，还用于：按照预设字数由多到少的原则设置所述选择范围内的预设字数的使用优先级。

进一步地，所述待拆分词组包括三个或三个以上词汇，所述装置还包括：

提取模块20，用于根据预设策略继续提取所述待拆分词组剩余部分中的词汇；

拆分模块40，用于在提取的所述待拆分词组剩余部分中的词汇与预设词汇数据库中的词汇一致时，在所述待拆分词组剩余部分中拆分出所述词汇。

装置实施例里：本发明的方法的操作步骤与系统的结构特征对应，可以相互参照，不再一一赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种词组的拆分方法，其特征在于，包括：

获取待拆分词组；

根据预设策略提取所述待拆分词组中的词汇；

2.根据权利要求1所述的方法，其特征在于，所述根据预设策略提取所述待拆分词组中的词汇，包括：

在所述待拆分词组中提取第一预设字数的第一词汇；

相应的，在所述待拆分词组中提取第一预设字数的第一词汇之后，所述方法还包括：

若所述第一词汇与预设词汇数据库中的词汇不一致，则在所述待拆分词组中提取第二预设字数的第二词汇。

3.根据权利要求2所述的方法，其特征在于，所述在所述待拆分词组中提取第一预设字数的第一词汇之前，还包括：

根据所述待拆分词组的字数确定预设字数的选择范围。

4.根据权利要求3所述的方法，其特征在于，所述根据所述待拆分词组的字数确定预设字数的选择范围之后，还包括：

按照预设字数由多到少的原则设置所述选择范围内的预设字数的使用优先级。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述待拆分词组包括三个或三个以上词汇，在所述待拆分词组中拆分出所述词汇之后，所述方法还包括：

根据预设策略继续提取所述待拆分词组剩余部分中的词汇；

在提取的所述待拆分词组剩余部分中的词汇与预设词汇数据库中的词汇一致时，在所述待拆分词组剩余部分中拆分出所述词汇。

6.一种词组的拆分装置，其特征在于，包括：

获取模块，用于获取待拆分词组；

7.根据权利要求6所述的装置，其特征在于：

所述提取模块，用于在所述待拆分词组中提取第一预设字数的第一词汇；

所述判断模块，用于判断所述第一词汇与预设词汇数据库中的词汇是否一致；

所述提取模块，还用于若所述第一词汇与预设词汇数据库中的词汇不一致，则在所述待拆分词组中提取第二预设字数的第二词汇。

8.根据权利要求7所述的装置，其特征在于，还包括：

确定模块，用于根据所述待拆分词组的字数确定预设字数的选择范围。

9.根据权利要求8所述的装置，其特征在于，所述确定模块，还用于：

10.根据权利要求6-9任一项所述的装置，其特征在于，所述待拆分词组包括三个或三个以上词汇，所述装置还包括：

所述提取模块，用于根据预设策略继续提取所述待拆分词组剩余部分中的词汇；

所述拆分模块，用于在提取的所述待拆分词组剩余部分中的词汇与预设词汇数据库中的词汇一致时，在所述待拆分词组剩余部分中拆分出所述词汇。