CN111309872A - 搜索处理方法、装置及设备 - Google Patents
搜索处理方法、装置及设备 Download PDFInfo
- Publication number
- CN111309872A CN111309872A CN202010223795.8A CN202010223795A CN111309872A CN 111309872 A CN111309872 A CN 111309872A CN 202010223795 A CN202010223795 A CN 202010223795A CN 111309872 A CN111309872 A CN 111309872A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- searched
- candidate
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种搜索处理方法、装置及设备,涉及人工智能技术领域,尤其涉及知识图谱技术领域。本申请公开的技术方案包括:获取待搜索文本,根据待搜索文本,确定出至少一个候选实体;针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果;根据至少一个候选实体各自对应的标注结果,确定出待搜索文本对应的目标实体。上述过程中,通过利用知识图谱中的实体信息对待搜索文本中的关键词进行标注,使得对待搜索文本的语义和意图理解透彻,从而提升搜索结果的精准度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种搜索处理方法、装置及设备。
背景技术
用户使用搜索引擎等具有搜索功能的产品时,用户输入的待搜索文本可以包括实体名称和实体信息。实体名称用于指示待搜索实体,实体信息为用于进一步描述或者限定待搜索实体的信息。只有根据待搜索文本准确识别出待搜索实体,才能向用户展示准确的搜索结果。
现有技术中,对待搜索文本进行识别时,利用预先设置的模板对待搜索文本进行匹配识别,以确定出待搜索实体。上述方式确定出的待搜索实体准确率较低,导致搜索结果不够精准。
发明内容
本申请提供一种搜索处理方法、装置及设备,用以提高搜索结果的精准度。
第一方面,本申请实施例提供一种搜索处理方法,包括:
获取待搜索文本;根据所述待搜索文本,确定出至少一个候选实体;
针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果;根据所述至少一个候选实体各自对应的标注结果,确定出所述待搜索文本对应的目标实体。
该方案中,通过利用知识图谱中的实体信息对待搜索文本中的关键词进行标注,针对待搜索文本中的每个关键词,都能标注出该关键词对应的知识属性,使得对待搜索文本中的各关键词都能准确理解,并对搜索文本的语义和意图理解透彻。进而,根据对待搜索文本的理解结果,能够准确识别出待搜索实体,从而提升搜索结果的精准度。另外,本实施例的搜索处理方法,可用于任意结构、任意长度的待搜索文本,具有较高的普适性。
一种可能的实现方式中,一个候选实体对应的实体信息用于指示该候选实体的至少一个知识属性对应的属性值;所述标注结果用于指示所述待搜索文本中的各关键词对应的知识属性。
一种可能的实现方式中,所述根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果,包括:根据该候选实体的至少一个知识属性对应的属性值,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性;根据所述待搜索文本中的各关键词对应的知识属性,生成该候选实体对应的标注结果。
一种可能的实现方式中,所述至少一个知识属性各自对应有优先级;所述根据该候选实体的至少一个知识属性对应的属性值,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性,包括:根据该候选实体的至少一个知识属性对应的属性值和所述优先级,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性。
该实现方式中,通过借助知识属性之间的优先级,可以解决待搜索文本在切分过程中的错位问题,提升关键词标注的准确性。
一种可能的实现方式中,所述生成该候选实体对应的标注结果之后,还包括:若所述标注结果指示所述待搜索文本中的第一关键词对应的知识属性为未知,则根据预设的正则匹配规则,对所述第一关键词进行匹配,并根据匹配结果生成所述第一关键词对应的知识属性。
该实现方式中,当第一关键词对应的知识属性被标注为未知时,通过利用预设的正则匹配规则,对第一关键词进行二次匹配,可以保证待搜索文本中的各关键词的标注全面性和准确性。
一种可能的实现方式中,所述根据所述至少一个候选实体各自对应的标注结果,确定出所述待搜索文本对应的目标实体,包括:根据每个候选实体对应的标注结果,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度;将最高匹配度对应的候选实体确定为目标实体。
一种可能的实现方式中,所述至少一个知识属性各自对应有权重系数;所述根据每个候选实体对应的标注结果,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度,包括:根据每个候选实体对应的标注结果,以及该候选实体的至少一个知识属性各自对应的权重系数,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度。
该实现方式中,通过上述对标注结果的评估过程,可以提高对待搜索文本理解的准确性,从而保证识别到的待搜索实体的准确性。
一种可能的实现方式中,所述根据所述待搜索文本,确定出至少一个候选实体,包括:根据实体名称词典,对所述待搜索文本进行匹配处理,从所述待搜索文本中确定出至少一个候选实体名称;其中,所述实体名称词典中包括至少一个实体名称,以及每个实体名称对应的至少一个实体;将各所述候选实体名称对应的实体,确定为所述至少一个候选实体。
该实现方式中,通过利用实体名称词典对待搜索文本进行匹配处理,确定出至少一个候选实体,保证了确定出的候选实体的全面性和准确性。
一种可能的实现方式中,所述根据所述待搜索文本,确定出至少一个候选实体之前,还包括:根据所述实体名称词典,确定所述待搜索文本中包括第一类关键词和第二类关键词;其中,所述第一类关键词是与所述实体名称词典中的任一实体名称匹配的关键词,所述第二类关键词是与所述实体名称词典中的所有实体名称均不匹配的关键词。
一种可能的实现方式中,所述知识图谱用于指示至少一个实体对应的实体名称和实体信息;所述方法还包括:根据所述知识图谱,生成所述实体名称词典。
一种可能的实现方式中,所述根据所述知识图谱,生成所述实体名称词典,包括:将所述知识图谱中的各实体对应的实体名称加入所述实体名称词典;对所述知识图谱中的各实体对应的实体名称进行挖掘,将挖掘后的实体名称加入所述实体名称词典;其中,所述挖掘包括下述中的至少一种:别名挖掘、变换挖掘、简称挖掘、纠错挖掘。
该实现方式中,经过上述挖掘过程,将大大丰富实体名称词典中的实体名称的数量。进而,在利用实体名称词典对待搜索文本进行匹配,确定候选实体时,保证了确定出的候选实体的全面性和准确性。
第二方面,本申请实施例提供一种搜索处理装置,包括:
获取模块,用于获取待搜索文本;选择模块,用于根据所述待搜索文本,确定出至少一个候选实体;标识模块,用于针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果;确定模块,用于根据所述至少一个候选实体各自对应的标注结果,确定出所述待搜索文本对应的目标实体。
一种可能的实现方式中,一个候选实体对应的实体信息用于指示该候选实体的至少一个知识属性对应的属性值;所述标注结果用于指示所述待搜索文本中的各关键词对应的知识属性。
一种可能的实现方式中,所述标注模块具体用于:根据该候选实体的至少一个知识属性对应的属性值,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性;根据所述待搜索文本中的各关键词对应的知识属性,生成该候选实体对应的标注结果。
一种可能的实现方式中,所述至少一个知识属性各自对应有优先级;所述标注模块具体用于:根据该候选实体的至少一个知识属性对应的属性值和所述优先级,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性。
一种可能的实现方式中,所述标注模块还用于:若所述标注结果指示所述待搜索文本中的第一关键词对应的知识属性为未知,则根据预设的正则匹配规则,对所述第一关键词进行匹配,并根据匹配结果生成所述第一关键词对应的知识属性。
一种可能的实现方式中,所述确定模块具体用于:根据每个候选实体对应的标注结果,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度;将最高匹配度对应的候选实体确定为目标实体。
一种可能的实现方式中,所述至少一个知识属性各自对应有权重系数;所述确定模块具体用于:根据每个候选实体对应的标注结果,以及该候选实体的至少一个知识属性各自对应的权重系数,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度。
一种可能的实现方式中,所述选择模块具体用于:根据实体名称词典,对所述待搜索文本进行匹配处理,从所述待搜索文本中确定出至少一个候选实体名称;其中,所述实体名称词典中包括至少一个实体名称,以及每个实体名称对应的至少一个实体;将各所述候选实体名称对应的实体,确定为所述至少一个候选实体。
一种可能的实现方式中,所述选择模块还用于:根据所述实体名称词典,确定所述待搜索文本中包括第一类关键词和第二类关键词;其中,所述第一类关键词是与所述实体名称词典中的任一实体名称匹配的关键词,所述第二类关键词是与所述实体名称词典中的所有实体名称均不匹配的关键词。
一种可能的实现方式中,所述知识图谱用于指示至少一个实体对应的实体名称和实体信息;所述装置还包括:生成模块,用于根据所述知识图谱,生成所述实体名称词典。
一种可能的实现方式中,所述生成模块具体用于:将所述知识图谱中的各实体对应的实体名称加入所述实体名称词典;对所述知识图谱中的各实体对应的实体名称进行挖掘,将挖掘后的实体名称加入所述实体名称词典;其中,所述挖掘包括下述中的至少一种:别名挖掘、变换挖掘、简称挖掘、纠错挖掘。
第三方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。
第四方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。
本申请实施例提供的搜索处理方法、装置及设备,通过利用知识图谱中的实体信息对待搜索文本中的关键词进行标注,针对待搜索文本中的每个关键词,都能标注出该关键词对应的知识属性,使得对待搜索文本中的各关键词都能准确理解,并对待搜索文本的语义和意图理解透彻。进而,根据对待搜索文本的理解结果,能够准确识别出待搜索实体,从而提升搜索结果的精准度。另外,本实施例的搜索处理方法,可用于任意结构、任意长度的待搜索文本,具有较高的普适性。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例适用的一种网络架构的示意图;
图2为本申请实施例的一种可能的搜索交互过程的示意图;
图3为本申请一个实施例提供的搜索处理方法的流程示意图;
图4A至图4C为本申请实施例提供的知识图谱的示意图;
图5为本申请另一个实施例提供的搜索处理方法的流程示意图;
图6为本申请实施例提供的终端设备的搜索结果界面的示意图;
图7为本申请一个实施例提供的搜索处理装置的结构示意图;
图8为本申请另一个实施例提供的搜索处理装置的结构示意图;
图9为本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1为本申请实施例适用的一种网络架构的示意图,如图1所示,该网络架构包括至少一个终端设备11和至少一个服务器12。终端设备11向用户提供搜索入口。该搜索入口可以是终端设备11已安装的搜索引擎,也可以是其他具有搜索功能的应用。终端设备11也称为终端(Terminal)、用户设备(user equipment,简称UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是个人数字处理(personal digital assistant,简称PDA)设备、智能电视、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,简称PC)、车载设备以及可穿戴设备等。
服务器12具有存储、分析和检索功能。服务器可以为集中式服务器,还可以为分布式服务器。服务器还可以为云端服务器。服务器12可以设置数据库,预先存储有大量的实体相关信息。
图2为本申请实施例的一种可能的搜索交互过程的示意图。如图2所示,用户可以在终端设备11提供的搜索入口输入待搜索文本。待搜索文本可以包括一个或者多个关键词。终端设备11检测到用户操作“搜索”按钮后,将待搜索文本发送给服务器12进行搜索处理。服务器12通过对待搜索文本进行识别分析,确定出待搜索实体,进而在数据库中检索得到待搜索实体的相关信息,并将检索结果返回给终端设备11。终端设备11在界面中对该搜索结果进行展示。
上述搜索过程中,只有根据待搜索文本准确识别出用户待搜索实体,才能向用户展示准确的搜索结果。相关技术中,对待搜索文本进行识别时,利用预先设置的模板对待搜索文本进行匹配识别,以确定出待搜索实体。上述方式确定出的待搜索实体准确率较低,导致搜索结果不够精准。另外,上述方式通常要求待搜索文本满足预设的形式要求,具有局限性,且不易拓展。
本申请实施例提供一种搜索处理方法,通过利用知识图谱对待搜索文本中的各关键词进行准确理解,使得能够准确识别出待搜索实体,从而提升搜索结果的精准度。
一些场景中,本申请实施例的方法可应用于如图1所示的服务器。另一些场景中,当终端设备具有较为强大的计算能力、存储能力时,本申请实施例的方法也可以由如图1中的终端设备执行。
下面结合几个具体的实施例对本申请的技术方案进行详细描述。下面几个实施例可以相互结合,对于相同或者相似的内容在某些实施例中可能不再重复描述。
图3为本申请一个实施例提供的搜索处理方法的流程示意图。如图3所示,本实施例的方法包括:
S301:获取待搜索文本。
待搜索文本是指用户为了搜索意图而输入的文本。待搜索文本可以是用户通过文本形式输入,也可以是通过语音形式输入,当然,还可以是通过其他形式输入的,本实施例对此不作限定。当本实施例的方法由服务器执行时,终端设备接收到用户输入的待搜索文本后,将待搜索文本发送给服务器。
待搜索文本可以包括一个或者多个关键词。可选的,待搜索文本中的至少一个关键词用于指示待搜索实体的名称,其余关键词用于进一步限定或描述待搜索实体的其他信息。
例如,待搜索文本可以是“颜色集合电视剧小红主演2019第20集”。其中,假设“颜色集合”为电视剧的名称,“小红”为主演姓名。该待搜索文本中,关键词“颜色集合”指示的是待搜索实体的名称,其他关键词指示的是进一步描述或者限定待搜索实体的信息。
S302:根据待搜索文本,确定出至少一个候选实体。
本申请实施例中,实体是指客观存在并可相互区别的事物。实体可以是具体的人、事、物,也可以是抽象的概念或联系。例如,实体可以为一部电视剧、一首音乐、一个人物、一个地点等。
本实施例中,通过对待搜索文本进行初步识别,可以确定出至少一个候选实体。其中,候选实体是指用户可能想要搜索的实体。
例如,上述举例中,当待搜索文本是“颜色集合电视剧小红2001第18集”时,确定出的候选实体可以包括:“颜色集合”这部电视剧、“小红”这个演员。当然,一些示例中,当有多个电视剧的名称均为“颜色集合”时,这些电视剧均可以作为候选实体。另一些示例中,当还有个电影的名称为“颜色集合”时,也可以将该电影作为候选实体。
需要说明的是,S302的具体实施方式可以有多种。例如,可以通过命名实体工具对待搜索文本进行识别,得到至少一个候选实体;还可以通过其他的方式实现,具体可以参见后续实施例的详细描述,此处不作赘述。
S303:针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果。
知识图谱本质上是一种语义网络。知识图谱中可以包括节点和用于连接节点的边。其中,节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。
本实施例中,知识图谱用于指示至少一个实体对应的实体名称和实体信息。实体信息是用于描述实体的相关信息。可选的,一个实体的实体信息用于指示该实体的至少一个知识属性对应的属性值。图4A至图4C为本申请实施例提供的知识图谱的示意图。以影视领域的知识图谱为例,图4A至图4C分别示例的是知识图谱中的一个实体的相关信息。如图4A至图4C所示,每个实体对应一部电视剧或者电影。每个实体的知识属性可以包括:导演、编剧、演员、角色、年份、版本、地区、季部信息、领域、类型、播放站点(站点A、站点B等)、集数、观看意图(免费、未删减、高清、1080p、完整版等等)。
为了后续举例方便,本实施例假设存在2部名称为“颜色集合”的电视剧,还存在1部名称为“颜色集合”的电影。图4A至图4C示例了上述3个实体(2部电视剧和1部电影)对应的实体信息。如图4A至图4C所示,实体ID1-ID3对应的实体名称均为“颜色集合”。实体ID的实体信息包括:主演为小红、导演为张一、类型为都市剧、年份为2001、集数为20集、播放站点为站点A。实体ID2的实体信息包括:主演为小绿、导演为张二、类型为古装剧、年份为2010、集数为30集、播放站点为站点B。实体ID3的实体信息包括:主演为小蓝、导演为张三、类型为科幻、年份为2020、播放站点为站点C。
本实施例中确定出候选实体后,针对每个候选实体,可以从如图4A至图4C所示的知识图谱中获取该候选实体对应的实体信息(即该候选实体的各知识属性的属性值)。进而,可以利用该候选实体对应的实体信息,对待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果。其中,标注结果指示的是待搜索文本中的各关键词对应的知识属性。
一种可能的实施方式中,可以根据该候选实体的至少一个知识属性对应的属性值,对待搜索文本中的关键词进行切分和匹配,确定出待搜索文本中的各关键词对应的知识属性。进而根据待搜索文本中的各关键词对应的知识属性,生成该候选实体对应的标注结果。
示例性的,以知识图谱中的实体ID1为例,利用实体ID1对应的实体信息对待搜索文本“颜色集合电视剧小红2001第18集”中的关键词进行标注时,利用实体ID1的每个知识属性的属性值与待搜索文本进行匹配。例如,实体ID1的领域的属性值“电视剧”与待搜索文本中的关键词“电视剧”匹配成功,则将待搜索文本中关键词“电视剧”对应的知识属性设置为“领域”。实体ID1的演员的属性值“小红”与待搜索文本中的关键词“小红”匹配成功,则将待搜索文本中关键词“小红”对应的知识属性设置为“演员”。实体ID1的年份的属性值“2001”与待搜索文本中的关键词“2001”匹配成功,则将待搜索文本中关键词“2001”对应的知识属性设置为“年份”。实体ID1的各知识属性的属性值与待搜索文本中的关键词“第18集”均不匹配,则将待搜索文本中关键词“第18集”对应的知识属性设置为“未知”。因此,最终可以得到如表1所示的标注结果。
表1
| 关键词 | 知识属性 |
| 颜色集合 | 实体名称 |
| 电视剧 | 领域 |
| 小红 | 演员 |
| 2001 | 年份 |
| 第18集 | 未知 |
其中,上述匹配过程中,可以采用现有的多种文本切分匹配技术,本实施例对此不作具体限定。例如,可以采用多模匹配树算法进行匹配,利用多模匹配树算法,可以一次性计算完成待搜索文本中的所有关键词的知识属性的标注,提升标注效率。
一种可能的实施方式中,采用上述匹配过程得到标注结果之后,还可以包括:若标注结果指示待搜索文本中的第一关键词对应的知识属性为未知,则根据预设的正则匹配规则,对第一关键词进行匹配,并根据匹配结果生成第一关键词对应的知识属性。其中,第一关键词可以是待搜索文本中的任一关键词。
例如,表1所示的标注结果中,关键词“第18集”对应的知识属性为“未知”,说明该关键词未被匹配成功。因此,可以进一步采用预设的正则匹配规则,将关键词“第18集”与实体ID1的集数的属性值“20集”进行匹配。例如,提取出关键词“第18集”中的数字18,将该数字与集数的属性值“20集”中的数字20进行比较,由于18小于20,可以认为该关键词指示的是某一集,因此,可以将关键词“第18集”的知识属性设置为“集数”。
当第一关键词对应的知识属性被标注为未知时,通过利用预设的正则匹配规则,对第一关键词进行二次匹配,可以保证待搜索文本中的各关键词的标注全面性和准确性。
进一步的,知识图谱中各实体的多个知识属性中,其中有些知识属性是用于描述观看意图的,例如:播放站点、集数等。当用户输入的待搜索文本中包括“站点A第18集”时,可以认为用户的观看意图为“通过站点A观看第18集”。因此,在表1所示的标注结果中,当某个关键词对应的知识属性为播放站点或者集数时,还可以将该关键词的知识属性进一步标注为“观看意图”。
下面举例说明。假设在S302中确定出的候选实体为图4A至图4C所示知识图谱中的实体ID1、实体ID2和实体ID3。针对实体ID1,采用实体ID1对应的实体信息对待搜索文本“颜色集合电视剧小红2001第18集”进行标注,得到的标注结果如表2所示。针对实体ID2,采用实体ID2对应的实体信息对待搜索文本“颜色集合电视剧小红2001第18集”进行标注,得到的标注结果如表3所示。针对实体ID3,采用实体ID3对应的实体信息对待搜索文本“颜色集合电视剧小红2001第18集”进行标注,得到的标注结果如表4所示。
表2
| 关键词 | 知识属性 |
| 颜色集合 | 实体名称 |
| 电视剧 | 领域 |
| 小红 | 演员 |
| 2001 | 年份 |
| 第18集 | 集数(观看意图) |
表3
| 关键词 | 知识属性 |
| 颜色集合 | 实体名称 |
| 电视剧 | 领域 |
| 小红2001 | 未知 |
| 第18集 | 集数(观看意图) |
表4
| 关键词 | 知识属性 |
| 颜色集合 | 实体名称 |
| 电视剧小红2001第18集 | 未知 |
本实施例的标注过程对待搜索文本的结构和长度均没有限制,即使是异常复杂的待搜索文本,本申请实施例也能够准确地对待搜索文本进行关键词标注,从而准确理解待搜索文本的语义。
可选的,本实施例S303中,由于利用每个候选实体的实体信息对待搜索文本进行关键词标注的过程都是独立的,所以可以对多个候选实体进行多线程并行计算。这样,当候选实体数量非常大的时候(如大于等于50时),多线程并行计算能极大的提升标注效率,提高在线计算性能,降低搜索延迟。
S304:根据至少一个候选实体各自对应的标注结果,确定出待搜索文本对应的目标实体。
示例性的,根据每个候选实体对应的标注结果,确定出该候选实体对应的实体信息与待搜索文本的匹配度,将最高匹配度对应的候选实体确定为目标实体。例如,根据表2至表4所示的标注结果,仅有实体ID的实体信息将“待搜索文本”完全切分完毕,并对每个关键词都标注了知识属性,因此,利用实体ID1可充分理解待搜索文本的含义和意图。其他实体ID的标注结果均存在未知的情况。可见,实体ID1对应的实体信息与待搜索文本的匹配度最高,因此,将实体ID1作为待搜索文本对应的目标实体。即,用户待搜索实体为实体ID1对应的电视剧。
本实施例提供的搜索处理方法,包括:获取待搜索文本,根据待搜索文本,确定出至少一个候选实体;针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果;根据至少一个候选实体各自对应的标注结果,确定出待搜索文本对应的目标实体。上述过程中,通过利用知识图谱中的实体信息对待搜索文本中的关键词进行标注,针对待搜索文本中的每个关键词,都能标注出该关键词对应的知识属性,使得对待搜索文本中的各关键词都能准确理解,并对待搜索文本的语义和意图理解透彻。进而,根据对待搜索文本的理解结果,能够准确识别出待搜索实体,从而提升搜索结果的精准度。另外,本实施例的搜索处理方法,可用于任意结构、任意长度的待搜索文本,具有较高的普适性。
图5为本申请另一个实施例提供的搜索处理方法的流程示意图。在图3所示实施例的基础上,本实施例对本申请技术方案进行进一步细化。如图5所示,本实施例的方法可以包括:
S501:获取待搜索文本。
本实施例中S501的具体实施方式与S301类似,此处不作赘述。
S502:根据实体名称词典,确定待搜索文本中包括第一类关键词和第二类关键词。
其中,实体名称词典中包括至少一个实体名称,以及每个实体名称对应的至少一个实体。示例性的,表5为一种可能的实体名称词典的示例。
表5
| 实体名称 | 实体ID |
| 颜色集合 | 实体ID1、实体ID2、实体ID3 |
| 小红 | 实体ID4 |
| 小绿 | 实体ID5 |
| … | … |
可选的,实体名称词典可以是根据知识图谱生成的。一种可能的实体名称词典的生成过程可以参见后续实施例的详细描述,此处不作赘述。
本实施例中,第一类关键词是与实体名称词典中的任一实体名称匹配的关键词(或者说,第一类关键词为用于指示实体的名称的关键词),第二类关键词是与实体名称词典中的所有实体名称均不匹配的关键词(或者说,第二类关键词为用于描述或者限定实体的相关信息的关键词)。
示例性的,可以将待搜索文本与实体名称词典进行匹配,若待搜索文本直接等于实体名称词典中的某个实体名称,则说明待搜索文本中仅包括第一类关键词(即待搜索文本中仅包括用于指示实体名称的关键词)。若待搜索文本不直接等于实体名称词典中的任一实体名称,则说明待搜索文本中包括第一类关键词和第二类关键词。
应理解,在确定待搜索文本中仅包括第一类关键词时,则可以直接将该第一类关键词对应的实体ID作为待搜索实体,这部分与现有技术类似。在确定待搜索文本中包括第一类关键词和第二类关键词时,则可以继续执行后续的S503至S506,通过利用知识图谱对待搜索文本中的关键词进行标注,使得准确理解待搜索文本的语义后,再确定待搜索实体。
S503:根据实体名称词典,对待搜索文本进行匹配处理,从待搜索文本中确定出至少一个候选实体名称,并将实体名称词典中各候选实体名称对应的实体,确定为至少一个候选实体。
本实施例中的S503给出了上述实施例中S302的一种可能的实施方式。通过利用实体名称词典对待搜索文本进行匹配处理,确定出至少一个候选实体。其中,上述的匹配处理过程可以采用现有的匹配处理算法。
一个示例中,可以采用多模匹配树算法,将实体名称词典读入到多模匹配树中,对待搜索文本进行多模匹配计算,一次性算出待搜索文本中包含的所有候选实体名称。进而,通过查询表5所示的实体名称词典,得到这些候选实体名称各自对应的实体ID,将这些实体ID作为候选实体。例如,假设待搜索文本为“颜色集合电视剧小红2001第18集”,则通过上述的匹配过程,可以得到候选实体名称包括:“颜色集合”、“小红”。进而,通过查询表5,将实体ID1-实体ID4作为候选实体。
通过利用实体名称词典对待搜索文本进行匹配处理,确定出至少一个候选实体,保证了确定出的候选实体的全面性和准确性。
S504:针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果。
本实施例中,S504的具体实施方式与图3所示实施例中的S303类似,此处不作详述。
在图3所示实施例的基础上,下面给出S504的另一种可能的实施方式。该实施方式中,可以为知识图谱中涉及的多个知识属性设置优先级信息。每个优先级可以对应一个或者多个知识属性。当一个优先级对应多个知识属性时,说明这些知识属性的优先级相同。
例如,一种可能的优先级信息如表6所示。表6中,按照1-7的顺序优先级依次降低。
表6
| 优先级序号 | 知识属性 |
| 优先级1 | 实体名称 |
| 优先级2 | 领域 |
| 优先级3 | 季部 |
| 优先级4 | 版本,年份,集数 |
| 优先级5 | 导演,编剧,演员,角色 |
| 优先级6 | 国家,类型 |
| 优先级7 | 播放站点,观看意图 |
进一步的,S504中,在利用候选实体的实体信息对待搜索文本进行关键词标注时,可以将表6所示的各知识属性的优先级作为关键词切分和匹配的依据,即,根据候选实体的至少一个知识属性对应的属性值和优先级,对待搜索文本中的关键词进行切分和匹配,确定出待搜索文本中的各关键词对应的知识属性。
下面结合一个举例说明。假设待搜索文本为“星星在哪里张免费介”,其中“星星在哪里”为电视剧的名称,“张免”是一个演员,“费介”是一个角色。当知识属性的优先级为“演员=角色>观看意图”时,则在对待搜索文本进行切分和匹配时,会优先识别为:关键词“张免”的知识属性为“演员”,关键词“费介”的知识属性为“角色”,而不会将关键词“免费”识别为观看意图。当知识属性的优先级为“观看意图>演员”时,则在对待搜索文本进行切分和匹配时,会优先识别为:关键词“免费”的知识属性为“观看意图”,而不是将关键词“张免”识别为演员。
可见,通过借助知识属性之间的优先级,可以解决待搜索文本在切分过程中的错位问题,提升关键词标注的准确性。
S505:根据至少一个候选实体各自对应的标注结果,确定出待搜索文本对应的目标实体。
本实施例S505的具体实施方式与图3所示实施例中的S304类似,此处不作详述。
在图3所示实施例的基础上,下面给出S505的另一种可能的实施方式。该实施方式中,可以为知识图谱中涉及的多个知识属性设置权重系数。其中,不同知识属性对应的权重系数可以不同。或者,有些知识属性对应的权重系数相同,有些知识属性对应的权重系数不同。
一个示例中,可以根据每个候选实体对应的标注结果,以及该候选实体的至少一个知识属性各自对应的权重系数,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度。进而,将最高匹配度对应的候选实体确定为目标实体。
可选的,知识属性对应的权重系数与其对应的优先级正相关,即,某个知识属性对应的优先级越高,则该知识属性对应的权重系数越高;某个知识属性对应的优先级越低,则该知识属性对应的权重系数越低。这样,针对某个候选实体的标注结果,可以根据该标注结果中识别出的各关键词对应的知识属性及其权重系数,进行加权求和,得到该候选实体对应的实体信息与待搜索文本的匹配度。
通过上述对标注结果的评估过程,可以提高对待搜索文本理解的准确性,从而保证识别到的待搜索实体的准确性。
S506:根据目标实体对应的标注结果,确定待展示的实体卡片以及展示信息。
本实施例还可以根据目标实体对应的标注结果,确定出待展示的实体卡片以及展示信息,使得终端设备对实体卡片进行展示。
可选的,在确定展示信息时,还可以考虑标注结果指示的观看意图。例如:特定集数范围、指定免费、指定站点、指定未删减版、指定1080p等。示例性的,针对待搜索文本“颜色集合电视剧小红2001第18集在线观看站点A”,得到的标注结果中,将下述关键词标注为观看意图:
在线观看:观看(观看意图)
站点A:播放站点(观看意图)
第18集:集数(观看意图)
因此,在判断站点A包括该实体卡片的播放资源时,才确定对该实体卡片进行展示。并且,在展示信息中指示将“站点A”排序到最前面,将播放集数处只保留第18集。
图6为本申请实施例提供的终端设备的搜索结果界面的示意图。假设用户输入的待搜索文本为“颜色集合电视剧小红2001第18集在线观看站点A”,则终端展示的搜索结果界面如图6所示。图6中,展示了知识图谱中实体ID1对应的实体卡片,并且,将“站点A”排序到最前面,将播放集数处只保留第18集。这样,可以直接满足用户搜素需求,提升用户体验。
下面结合一个具体的示例,描述图5所示实施例中实体名称词典的生成过程。本实施例的实体名称词典的生成过程可以在线执行,还可以离线执行。
一个示例中,根据知识图谱,生成实体名称词典的过程可以包括:将知识图谱中的各实体对应的实体名称加入实体名称词典。例如,图4所示的知识图谱中,实体ID1至实体ID3的实体名称为“颜色集合”,因此,将实体名称“颜色集合”添加至实体名称词典中,并在实体名称词典中将实体名称“颜色集合”与实体ID1、实体ID2、实体ID3建立关联关系。另外,假设知识图谱中还包括实体ID4、实体ID5,实体ID4和实体ID5的实体名称分别为“小红”、“小绿”,则可以将实体名称“小红”和“小绿”添加至实体名称词典中,并在实体名称词典中将实体名称“小红”与实体ID4建立关联关系,将实体名称“小绿”与实体ID5建立关联关系。这样,得到如表5所示的实体名称词典。
进一步的,为了丰富实体名称词典中的数据,根据知识图谱,生成实体名称词典的过程还可以包括:对知识图谱中的各实体对应的实体名称进行挖掘,将挖掘后的实体名称加入实体名称词典。其中,挖掘包括下述中的至少一种:别名挖掘、变换挖掘、简称挖掘、纠错挖掘。
其中,别名挖掘是指对知识图谱中的实体名称进行别名替换以得到新的实体名称。例如:假设演员“小红”还有一个别名叫做“红红”,则可以将实体名称“红红”也加入实体名称词典。并在实体名称词典中将“红红”与实体ID4建立关联关系。
变换挖掘是指对知识图谱中的实体名称进行一定的变换以得到新的实体名称。例如:假设知识图谱中还包括实体ID6,其实体名称为“颜色集合2”,则可以将该实体名称变换为“颜色集合二”、“颜色集合Ⅱ”、“颜色集合第二季”等。因此,可以将变换后的实体名称添加入实体名称词典中,并在实体名称词典中建立这些变化后的实体名称与实体ID6之间的关联关系。需要说明的是,上述举例是以数字变换为例进行示例的,实际应用中,可以对实体名称进行多种形式的变换,本实施例对此不作限定。
简称挖掘是指对知识图谱中的实体名称进行简称替换以得到新的实体名称。例如:假设电视剧“颜色集合”还有一个简称叫做“颜色”,则可以将实体名称“颜色”也加入实体名称词典。并在实体名称词典中将“颜色”与实体ID1、ID2建立关联关系。
纠错挖掘是指对知识图谱中的实体名称中的错误进行纠正以得到新的实体名称。例如:假设知识图谱中还包括实体ID7,其实体名称为“彩红桥”,该实体名称中存在错误,实际上实体名称应该为“彩虹桥”,则可以将“彩虹桥”也加入实体名称词典,并在实体名称词典中将“彩虹桥”与实体ID7建立关联关系。
能够理解,经过上述挖掘过程,将大大丰富实体名称词典中的实体名称的数量。进而,在利用实体名称词典对待搜索文本进行匹配,确定候选实体时,保证了确定出的候选实体的全面性和准确性。
图7为本申请一个实施例提供的搜索处理装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图7所示,本实施例的搜索处理装置800,可以包括:获取模块801、选择模块802、标注模块803和确定模块804。其中,
获取模块801,用于获取待搜索文本;选择模块802,用于根据所述待搜索文本,确定出至少一个候选实体;标识模块803,用于针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果;确定模块804,用于根据所述至少一个候选实体各自对应的标注结果,确定出所述待搜索文本对应的目标实体。
一种可能的实现方式中,一个候选实体对应的实体信息用于指示该候选实体的至少一个知识属性对应的属性值;所述标注结果用于指示所述待搜索文本中的各关键词对应的知识属性。
一种可能的实现方式中,所述标注模块803具体用于:根据该候选实体的至少一个知识属性对应的属性值,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性;根据所述待搜索文本中的各关键词对应的知识属性,生成该候选实体对应的标注结果。
一种可能的实现方式中,所述至少一个知识属性各自对应有优先级;所述标注模块803具体用于:根据该候选实体的至少一个知识属性对应的属性值和所述优先级,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性。
一种可能的实现方式中,所述标注模块803还用于:若所述标注结果指示所述待搜索文本中的第一关键词对应的知识属性为未知,则根据预设的正则匹配规则,对所述第一关键词进行匹配,并根据匹配结果生成所述第一关键词对应的知识属性。
一种可能的实现方式中,所述确定模块804具体用于:根据每个候选实体对应的标注结果,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度;将最高匹配度对应的候选实体确定为目标实体。
一种可能的实现方式中,所述至少一个知识属性各自对应有权重系数;所述确定模块804具体用于:根据每个候选实体对应的标注结果,以及该候选实体的至少一个知识属性各自对应的权重系数,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度。
一种可能的实现方式中,所述选择模块802具体用于:根据实体名称词典,对所述待搜索文本进行匹配处理,从所述待搜索文本中确定出至少一个候选实体名称;其中,所述实体名称词典中包括至少一个实体名称,以及每个实体名称对应的至少一个实体;将各所述候选实体名称对应的实体,确定为所述至少一个候选实体。
一种可能的实现方式中,所述选择模块802还用于:根据所述实体名称词典,确定所述待搜索文本中包括第一类关键词和第二类关键词;其中,所述第一类关键词是与所述实体名称词典中的任一实体名称匹配的关键词,所述第二类关键词是与所述实体名称词典中的所有实体名称均不匹配的关键词。
图8为本申请另一个实施例提供的搜索处理装置的结构示意图。一种可能的实现方式中,所述知识图谱用于指示至少一个实体对应的实体名称和实体信息。如图8所示,本实施例的装置还可以包括:生成模块805,用于根据所述知识图谱,生成所述实体名称词典。
一种可能的实现方式中,所述生成模块805具体用于:将所述知识图谱中的各实体对应的实体名称加入所述实体名称词典;对所述知识图谱中的各实体对应的实体名称进行挖掘,将挖掘后的实体名称加入所述实体名称词典;其中,所述挖掘包括下述中的至少一种:别名挖掘、变换挖掘、简称挖掘、纠错挖掘。
本实施例提供的搜索处理装置,可用于执行上述任一方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的搜索处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的搜索处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的搜索处理方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的搜索处理方法对应的程序指令/模块(例如,附图7所示的获取模块801、选择模块802、标注模块803、确定模块804,图8所示的生成模块805)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器或者终端设备的各种功能应用以及数据处理,即实现上述方法实施例中的搜索处理方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种搜索处理方法,其特征在于,包括:
获取待搜索文本;
根据所述待搜索文本,确定出至少一个候选实体;
针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果;
根据所述至少一个候选实体各自对应的标注结果,确定出所述待搜索文本对应的目标实体。
2.根据权利要求1所述的方法,其特征在于,一个候选实体对应的实体信息用于指示该候选实体的至少一个知识属性对应的属性值;所述标注结果用于指示所述待搜索文本中的各关键词对应的知识属性。
3.根据权利要求2所述的方法,其特征在于,所述根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果,包括:
根据该候选实体的至少一个知识属性对应的属性值,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性;
根据所述待搜索文本中的各关键词对应的知识属性,生成该候选实体对应的标注结果。
4.根据权利要求3所述的方法,其特征在于,所述至少一个知识属性各自对应有优先级;所述根据该候选实体的至少一个知识属性对应的属性值,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性,包括:
根据该候选实体的至少一个知识属性对应的属性值和所述优先级,对所述待搜索文本中的关键词进行切分和匹配,确定出所述待搜索文本中的各关键词对应的知识属性。
5.根据权利要求3所述的方法,其特征在于,所述生成该候选实体对应的标注结果之后,还包括:
若所述标注结果指示所述待搜索文本中的第一关键词对应的知识属性为未知,则根据预设的正则匹配规则,对所述第一关键词进行匹配,并根据匹配结果生成所述第一关键词对应的知识属性。
6.根据权利要求2至5任一项所述的方法,其特征在于,所述根据所述至少一个候选实体各自对应的标注结果,确定出所述待搜索文本对应的目标实体,包括:
根据每个候选实体对应的标注结果,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度;
将最高匹配度对应的候选实体确定为目标实体。
7.根据权利要求6所述的方法,其特征在于,所述至少一个知识属性各自对应有权重系数;所述根据每个候选实体对应的标注结果,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度,包括:
根据每个候选实体对应的标注结果,以及该候选实体的至少一个知识属性各自对应的权重系数,确定出该候选实体对应的实体信息与所述待搜索文本的匹配度。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述待搜索文本,确定出至少一个候选实体,包括:
根据实体名称词典,对所述待搜索文本进行匹配处理,从所述待搜索文本中确定出至少一个候选实体名称;其中,所述实体名称词典中包括至少一个实体名称,以及每个实体名称对应的至少一个实体;
将各所述候选实体名称对应的实体,确定为所述至少一个候选实体。
9.根据权利要求8所述的方法,其特征在于,所述根据所述待搜索文本,确定出至少一个候选实体之前,还包括:
根据所述实体名称词典,确定所述待搜索文本中包括第一类关键词和第二类关键词;其中,所述第一类关键词是与所述实体名称词典中的任一实体名称匹配的关键词,所述第二类关键词是与所述实体名称词典中的所有实体名称均不匹配的关键词。
10.根据权利要求8所述的方法,其特征在于,所述知识图谱用于指示至少一个实体对应的实体名称和实体信息;所述方法还包括:
根据所述知识图谱,生成所述实体名称词典。
11.根据权利要求10所述的方法,其特征在于,所述根据所述知识图谱,生成所述实体名称词典,包括:
将所述知识图谱中的各实体对应的实体名称加入所述实体名称词典;
对所述知识图谱中的各实体对应的实体名称进行挖掘,将挖掘后的实体名称加入所述实体名称词典;其中,所述挖掘包括下述中的至少一种:别名挖掘、变换挖掘、简称挖掘、纠错挖掘。
12.一种搜索处理装置,其特征在于,包括:
获取模块,用于获取待搜索文本;
选择模块,用于根据所述待搜索文本,确定出至少一个候选实体;
标识模块,用于针对每个候选实体,从知识图谱中获取与该候选实体对应的实体信息,并根据该候选实体对应的实体信息对所述待搜索文本中的关键词进行标注,得到该候选实体对应的标注结果;
确定模块,用于根据所述至少一个候选实体各自对应的标注结果,确定出所述待搜索文本对应的目标实体。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至11中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1至11中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010223795.8A CN111309872B (zh) | 2020-03-26 | 2020-03-26 | 搜索处理方法、装置及设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010223795.8A CN111309872B (zh) | 2020-03-26 | 2020-03-26 | 搜索处理方法、装置及设备 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111309872A true CN111309872A (zh) | 2020-06-19 |
| CN111309872B CN111309872B (zh) | 2023-08-08 |
Family
ID=71157330
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010223795.8A Active CN111309872B (zh) | 2020-03-26 | 2020-03-26 | 搜索处理方法、装置及设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111309872B (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112905884A (zh) * | 2021-02-10 | 2021-06-04 | 北京百度网讯科技有限公司 | 生成序列标注模型的方法、设备、介质及程序产品 |
| CN113139033A (zh) * | 2021-05-13 | 2021-07-20 | 平安国际智慧城市科技股份有限公司 | 文本处理方法、装置、设备及存储介质 |
| CN114741550A (zh) * | 2022-06-09 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 图像搜索方法、装置、电子设备和计算机可读存储介质 |
| CN116414998A (zh) * | 2022-01-05 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 一种资源反馈的方法、相关装置、设备以及存储介质 |
Citations (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20060242113A1 (en) * | 2005-04-20 | 2006-10-26 | Kumar Anand | Cybernetic search with knowledge maps |
| US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
| US20190018849A1 (en) * | 2017-07-14 | 2019-01-17 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Information query method and apparatus |
| CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
| WO2019057191A1 (zh) * | 2017-09-25 | 2019-03-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
| CN109977233A (zh) * | 2019-03-15 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
| CN109992689A (zh) * | 2019-03-26 | 2019-07-09 | 华为技术有限公司 | 搜索方法、终端及介质 |
| CN110245259A (zh) * | 2019-05-21 | 2019-09-17 | 北京百度网讯科技有限公司 | 基于知识图谱的视频打标签方法及装置、计算机可读介质 |
| CN110516047A (zh) * | 2019-09-02 | 2019-11-29 | 湖南工业大学 | 基于包装领域的知识图谱的检索方法及检索系统 |
| CN110569367A (zh) * | 2019-09-10 | 2019-12-13 | 苏州大学 | 一种基于知识图谱的空间关键字查询方法、装置及设备 |
| CN110659366A (zh) * | 2019-09-24 | 2020-01-07 | Oppo广东移动通信有限公司 | 语义解析方法、装置、电子设备以及存储介质 |
-
2020
- 2020-03-26 CN CN202010223795.8A patent/CN111309872B/zh active Active
Patent Citations (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20060242113A1 (en) * | 2005-04-20 | 2006-10-26 | Kumar Anand | Cybernetic search with knowledge maps |
| US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
| US20190018849A1 (en) * | 2017-07-14 | 2019-01-17 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Information query method and apparatus |
| CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
| WO2019057191A1 (zh) * | 2017-09-25 | 2019-03-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
| CN109977233A (zh) * | 2019-03-15 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
| CN109992689A (zh) * | 2019-03-26 | 2019-07-09 | 华为技术有限公司 | 搜索方法、终端及介质 |
| CN110245259A (zh) * | 2019-05-21 | 2019-09-17 | 北京百度网讯科技有限公司 | 基于知识图谱的视频打标签方法及装置、计算机可读介质 |
| CN110516047A (zh) * | 2019-09-02 | 2019-11-29 | 湖南工业大学 | 基于包装领域的知识图谱的检索方法及检索系统 |
| CN110569367A (zh) * | 2019-09-10 | 2019-12-13 | 苏州大学 | 一种基于知识图谱的空间关键字查询方法、装置及设备 |
| CN110659366A (zh) * | 2019-09-24 | 2020-01-07 | Oppo广东移动通信有限公司 | 语义解析方法、装置、电子设备以及存储介质 |
Non-Patent Citations (1)
| Title |
|---|
| 管健;汪璟玢;卞倩虹: "基于城市安全知识图谱的多关键词流式并行检索算法", 计算机科学, no. 002 * |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112905884A (zh) * | 2021-02-10 | 2021-06-04 | 北京百度网讯科技有限公司 | 生成序列标注模型的方法、设备、介质及程序产品 |
| CN112905884B (zh) * | 2021-02-10 | 2024-05-31 | 北京百度网讯科技有限公司 | 生成序列标注模型的方法、设备、介质及程序产品 |
| CN113139033A (zh) * | 2021-05-13 | 2021-07-20 | 平安国际智慧城市科技股份有限公司 | 文本处理方法、装置、设备及存储介质 |
| CN116414998A (zh) * | 2022-01-05 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 一种资源反馈的方法、相关装置、设备以及存储介质 |
| CN116414998B (zh) * | 2022-01-05 | 2025-10-21 | 腾讯科技(深圳)有限公司 | 一种资源反馈的方法、相关装置、设备以及存储介质 |
| CN114741550A (zh) * | 2022-06-09 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 图像搜索方法、装置、电子设备和计算机可读存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111309872B (zh) | 2023-08-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111967262B (zh) | 实体标签的确定方法和装置 | |
| JP2021166098A (ja) | 検索語の推薦方法と装置、目的モデルの訓練方法と装置、電子デバイス、記憶媒体、及びプログラム | |
| CN111782977B (zh) | 兴趣点处理方法、装置、设备及计算机可读存储介质 | |
| CN111538815B (zh) | 一种文本查询方法、装置、设备及存储介质 | |
| CN111666372B (zh) | 解析查询词query的方法、装置、电子设备和可读存储介质 | |
| CN111737501A (zh) | 一种内容推荐方法及装置、电子设备、存储介质 | |
| CN111309872A (zh) | 搜索处理方法、装置及设备 | |
| CN107273537A (zh) | 一种搜索词推荐方法、机顶盒和存储介质 | |
| CN111639228A (zh) | 视频检索方法、装置、设备及存储介质 | |
| CN111522863B (zh) | 一种主题概念挖掘方法、装置、设备以及存储介质 | |
| CN111090991B (zh) | 场景纠错方法、装置、电子设备和存储介质 | |
| JP7146961B2 (ja) | 音声パッケージの推薦方法、装置、電子機器および記憶媒体 | |
| CN111680189A (zh) | 影视剧内容检索方法和装置 | |
| CN112380847B (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
| CN111460296B (zh) | 用于更新事件集合的方法和装置 | |
| CN111241225B (zh) | 常驻区域变更的判断方法、装置、设备及存储介质 | |
| CN111523019B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
| CN114218431B (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
| CN111241242B (zh) | 目标内容的确定方法、装置、设备及计算机可读存储介质 | |
| CN112328896B (zh) | 用于输出信息的方法、装置、电子设备和介质 | |
| CN110633281A (zh) | 多类型数据源的处理方法及装置 | |
| CN112597768A (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
| CN111104418A (zh) | 文本描述的处理方法、装置和电子设备 | |
| CN110851726A (zh) | 兴趣点选择方法、装置以及电子设备 | |
| CN110532404A (zh) | 一种源多媒体确定方法、装置、设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |