CN114169334B - 一种语义识别方法、装置、设备及介质 - Google Patents
一种语义识别方法、装置、设备及介质Info
- Publication number
- CN114169334B CN114169334B CN202111486876.8A CN202111486876A CN114169334B CN 114169334 B CN114169334 B CN 114169334B CN 202111486876 A CN202111486876 A CN 202111486876A CN 114169334 B CN114169334 B CN 114169334B
- Authority
- CN
- China
- Prior art keywords
- target
- path
- credit
- letter
- target path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及金融数据处理技术领域,尤其涉及一种语义识别方法、装置、设备及介质。由于预设有词语与节点的对应关系,可以快速确定信用证要求条款中包含的每个目标词语分别对应的目标节点。根据预设每个节点间的连接关系,获取该信用证要求条款对应的目标路径组合,该目标路径组合中包含有至少一个目标路径,该至少一个目标路径互不相同,包含的目标节点分别对应该信用证要求条款中不同位置的词语,避免无法考虑到所有长度的信用证要求条款,所造成的只根据一个路径无法确定信用证要求条款的完整语义的情况,提高确定的语义的准确性。且预设了每个路径分别对应的语义,根据目标路径组合中包含的每个目标路径分别对应的语义,提高确定语义的效率。
Description
技术领域
本申请涉及金融数据处理技术领域,尤其涉及一种语义识别方法、装置、设备及介质。
背景技术
信用证,是指银行根据买方的请求,开给卖方的一种保证承担支付货款责任的书面凭证。在信用证内,银行授权卖方在符合信用证所规定的条件下,以该行或其指定的银行为付款人,开具不得超过规定金额的汇票,并按规定随附装运单据,按期在指定地点收取货物。卖方在获取到信用证后,可以对开具的信用证中的信用证要求条款进行审核,以保证该信用证要求条款符合相关规定,且满足开具该信用证的银行在信用证报文中提出的个性化要求,如交单时间、签署要求(包括时间、签署人等信息)、语言要求、显示内容等,避免该信用证中的信用证要求条款不合规影响买卖双方的权益。目前,可以通过人工审核信用证中的信用证要求条款,但该种方式不仅要求审核人员需要熟练掌握相关规定,还需要审核人员针对每一种信用证要求条款,理解该种信用证要求条款对应的信用证报文中提出的审核内容所包含的更具体、描述语言更泛化的个性化要求,审核人员的审核压力大且审核效率低。
基于此,可以通过机器先将个性化的信用证要求条款的语义提取出来,后续审核人员只需根据该提取出的语义,对该信用证要求条款进行审核,从而实现降低审核人员的审核压力,提高审核人员的审核效率。因此,如何快速且准确地获取信用证要求条款的语义成为一个亟待解决的技术问题。
发明内容
本申请实施例提供了一种语义识别方法、装置、设备、计算机产品及介质,用以快速且准确地获取信用证要求条款的语义。
本申请实施例提供了一种语义识别方法,所述方法包括:
获取信用证要求条款中包含的每个目标词语;
根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点;
按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;
根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义。
进一步地,所述根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点,包括:
针对所述每个目标词语,确定该目标词语所归属的第一类型;若所述第一类型与任一所述预设的通配类型匹配,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点;若所述第一类型与每个所述通配类型均不匹配,则根据所述词语与节点的对应关系,确定为该目标词语对应的目标节点。
进一步地,所述按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合,包括:
按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径;所述每个目标路径包含的节点均为目标节点;根据所述每个目标路径,确定每个路径组合;根据所述信用证要求条款分别与所述每个路径组合的匹配度,确定目标路径组合;或
按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点、以及动态规划算法,确定目标路径组合;
其中,所述起点标识用于标识路径起始点,所述结束标识用于标识路径结束点。
进一步地,确定所述信用证要求条款分别与所述每个路径组合的匹配度,包括:
针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量以及预设的第一分值,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,确定所述信用证要求条款分别与所述每个路径组合的匹配度,包括:
确定所述信用证要求条款中包含的目标词语的第二数量;
针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量及预设的第一分值、和所述第二数量,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,若所述语义包括意图,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义,包括:
将所述目标路径组合中的所述至少一个目标路径分别对应的意图,确定为所述信用证要求条款的意图。
进一步地,若所述语义包括槽位,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义,包括:
针对所述目标路径组合中的所述至少一个目标路径,从该目标路径包含的所有目标节点中,确定对应有槽位的参考目标节点;根据所述参考目标节点的节点名称,确定所述信用证要求条款的槽位;并根据所述参考目标节点在所述信用证要求条款中对应的词语,确定所述槽位对应的槽值。
进一步地,所述按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合之后,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义之前,所述方法还包括:
针对所述目标路径组合中的所述至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径。
本申请实施例提供了一种语义识别装置,所述装置包括:
获取单元,用于获取信用证要求条款中包含的每个目标词语;
第一处理单元,用于根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点;
第二处理单元,用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;
第三处理单元,用于根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义。
进一步地,所述第一处理单元,具体用于针对所述每个目标词语,确定该目标词语所归属的第一类型;若所述第一类型与任一所述预设的通配类型匹配,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点;若所述第一类型与每个所述通配类型均不匹配,则根据所述词语与节点的对应关系,确定为该目标词语对应的目标节点。
进一步地,所述第二处理单元,具体用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径;所述每个目标路径包含的节点均为目标节点;根据所述每个目标路径,确定每个路径组合;根据所述信用证要求条款分别与所述每个路径组合的匹配度,确定目标路径组合;或,按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点、以及动态规划算法,确定目标路径组合;其中,所述起点标识用于标识路径起始点,所述结束标识用于标识路径结束点。
进一步地,所述第二处理单元,具体用于针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量以及预设的第一分值,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,所述第二处理单元,具体用于确定所述信用证要求条款中包含的目标词语的第二数量;针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量及预设的第一分值、和所述第二数量,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,所述第三处理单元,具体用于若所述语义包括意图,将所述目标路径组合中的所述至少一个目标路径分别对应的意图,确定为所述信用证要求条款的意图。
进一步地,所述第三处理单元,具体用于若所述语义包括槽位,针对所述目标路径组合中的所述至少一个目标路径,从该目标路径包含的所有目标节点中,确定对应有槽位的参考目标节点;根据所述参考目标节点的节点名称,确定所述信用证要求条款的槽位;并根据所述参考目标节点在所述信用证要求条款中对应的词语,确定所述槽位对应的槽值。
进一步地,所述第三处理单元,还用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合之后,根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义之前,针对所述目标路径组合中的所述至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径。
本申请实施例提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语义识别方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述语义识别方法的步骤。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如上述任一所述一种语义识别方法的步骤。
由于预先配置的词语与节点的对应关系,可以快速确定信用证要求条款中包含的每个目标词语分别对应的目标节点。然后按照每个目标词语在该信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取该信用证要求条款对应的目标路径组合,而该目标路径组合中包含有至少一个目标路径,该至少一个目标路径互不相同,且至少一个目标路径包含的目标节点分别对应该信用证要求条款中不同位置的词语,避免了无法考虑到所有长度的信用证要求条款,所造成的只根据一个路径无法完全确定信用证要求条款的完整语义的情况,有利于提高后续确定该信用证要求条款的语义的准确性,也降低了不同节点之前的连接关系的复杂度。并且预先配置了每个路径分别对应的语义,使得后续根据目标路径组合中包含的每个目标路径分别对应的语义,可以快速且准确地确定该信用证要求条款的语义,提高了确定信用证要求条款的语义的效率,避免了信用证要求条款存在意图种类多、不同意图下所包含的实体各有不同、不同意图间句式表述相似、使用频次低的意图以及不同意图下所包含的使用频次低的实体均具有长尾分布特点、实体信息密集、不具有明显的上下文等特点,所导致的无法准确地获取信用证要求条款的语义的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语义识别过程示意图;
图2为本申请实施例提供的一种语义路径图;
图3为本申请实施例提供的一种路径组合的示意图;
图4为本申请实施例提供的一种语义识别装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本申请可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的部分概念进行解释:
(1)意图:语句核心想表达的大体内容,如语句“给我放一首周杰伦的青花瓷”的意图是“听音乐”。
(2)槽位:定义为语句中包含的词语的类别,由于语句中的词语也可以称为实体,因此,该槽位也可以称为是实体类别。如语句“给我放一首周杰伦的青花瓷”中的“周杰伦”这一词语的槽位是“歌手”。
(3)槽值:定义为语句中包含的词语,也可以称为实体,是槽位在当前语句中所对应的词语,即在该语句中的具体取值。如语句“给我放一首周杰伦的青花瓷”中的“周杰伦”这一词语的槽位是“歌手”,而该槽位对应的槽值为“周杰伦”。
(4)自然语言处理(Natural Language Processing,NLP)技术:对语句表达语义的理解包括意图识别和实体识别,将从一段语句中识别到的意图及识别的槽位进行组合,可以表达除该语句完整的语义信息。
现有NLP技术分为两大技术路线:
1)将语句的意图和实体分别进行识别,然后将识别出的意图和实体再进行组合。该技术路线可以采用规则匹配的方法,也可以采用深度学习的模型的方法。
目前,为了对信用证要求条款进行意图识别,主要采用如下方式进行识别:
方式一、基于关键词的意图识别。
预先配置好意图与关键词的对应关系。当需要进行信用证要求条款的意图识别时,针对信用证要求条款中包含的每个目标词语,确定该目标词语是否与预设的关键词匹配。若存在匹配的关键词,则将所述匹配的关键词所对应的意图,确定为该信用证要求条款的意图。例如,若信用证要求条款中包含的目标词语“LANGUAGE”与预设的关键词“LANGUAGE”匹配,则确定该信用证要求条款对应的意图为“语言类别”。对于该种方式,由于现有的信用证要求条款中存在意图种类多,且不同意图间句式表述相似的特点,如意图为对发票信用证的显示要素要求的句式和意图为对提单信用证的显示要素要求的句式表述相似等,导致信用证要求条款的意图并不能只通过一个或多个词语进行表示,造成该种方式难以适用于对信用证要求条款进行意图识别。
方式二、基于正则语法的句式进行意图识别。
预先配置好不同意图所对应的正则语法的句式,如“IN CASE OF.*?”。当需要进行信用证要求条款的意图识别时,将该信用证要求条款与预设的正则语法的句式进行匹配,若存在匹配的句式,则将该匹配的句式所对应的意图作为该信用证要求条款的意图。对于该种方式,由于现有的信用证要求条款中存在意图种类多,且不同意图间句式表述相似的特点,如意图为对发票信用证要求条款的显示要素要求的句式和意图为对提单信用证要求条款的显示要素要求的句式表述相似等,导致需要工作人员预先整理出大量的正则语法的句式,该方式识别意图的精度严重受到正则语法的句式的数量的影响,造成该种方式难以适用于对信用证要求条款进行意图识别。
方式三、基于机器学习或深度学习的分类模型进行意图识别。
通过预先收集大量的训练语料,对原始模型进行训练,使得训练完成的模型可以对输入的语料进行意图识别。对于该种方式,由于训练原始模型需要较多的训练语料,且现有的信用证要求条款中存在意图种类多、不同意图间句式表述相似等特点,使得采用模型对信用证要求条款的意图进行识别时,该模型并不能很好的区分不同种类的信用证要求条款的意图,意图识别结果的精度非常的差,造成该种方式难以适用于对信用证要求条款进行意图识别。
目前,为了对信用证要求条款进行实体识别,主要采用如下方式进行识别:
方式1、基于词典检索的实体识别。
预先建立实体与实体类别的对应关系。当需要进行信用证要求条款的实体识别时,针对信用证要求条款中包含的每个目标词语,确定该目标词语是否与预设的实体匹配。若存在匹配的实体,则将该实体对应的实体类别确定为该目标词语对应的槽位,并确定该槽位的槽值为该目标词语。对于该种方式,由于现有的信用证要求条款中存在不同意图下所包含的实体各有不同、使用频次低的意图以及不同意图下所包含的使用频次低的实体均具有长尾分布特点、实体信息密集等特点,如意图为发票信用证要求条款显示要素下包含的实体类别达80多种,意图为对提单信用证要求条款的显示要素要求下包含的实体类别有50多种,导致需要工作人员预先整理出大量的实体与实体类别的对应关系,造成该种方式难以适用于对信用证要求条款进行实体识别。
方式2、基于机器学习/深度学习的序列标注模型进行实体识别。对于改种方法,需要收集大量的训练语料,使得开发成本、开发周期的都非常的大,造成该种方式难以适用于对信用证要求条款进行语义识别。
2)将语句的意图和实体进行联合识别。该技术路线一般采用深度学习的多任务学习模型的方法,即预先训练有意图-实体联合识别模型,在训练该意图-实体联合识别模型时,通过该意图-实体联合识别模型可以将对输入的训练语料进行意图、实体识别任务作为该模型的两个训练输出任务,两个训练输出任务共用同一套特征抽取模块,仅在最后一层输出层定义不同的输出形式及损失函数。现有的信用证要求条款中存在意图种类多、不同意图下所包含的实体各有不同、不同意图间句式表述相似、使用频次低的意图以及不同意图下所包含的使用频次低的实体均具有长尾分布特点、实体信息密集、不具有明显的上下文等特点,导致要获取能够对信用证要求条款的意图和实体进行联合识别的意图-实体联合识别模型,需要获取大量的训练数据,使得开发成本、开发周期的都非常的大,并且训练完成的意图-实体联合识别模型,在对样本集之外的信用证要求条款的识别精度仍然比较差,造成该种方式难以适用于对信用证要求条款进行语义识别。
(5)误差传递:按顺序流程处理的方案中,前一步骤的误差传导了后一步骤,导致整个流程的准确率降低。
(6)针对每一种信用证要求条款,理解该种信用证要求条款对应的信用证报文中提出的审核内容所包含的更具体、描述语言更泛化的个性化要求,包括:
(a)识别信用证要求条款的所有意图,涉及证明的内容、对信用证出具时间的要求、对出具人的要求等。
(b)识别信用证要求条款所要求的实体,如公司名称、价格术语、单价、总价、重量、数量、商品名称、原产地等槽位,及每种槽位的槽值的各种泛化表述。
(c)理解信用证要求条款完整的语义。
实施例1:
本申请实施例提供的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
图1为本申请实施例提供的一种语义识别过程示意图,该过程包括:
S101:获取信用证要求条款中包含的每个目标词语。
本申请实施例提供的语义识别方法应用于电子设备,该电子设备可以为智能设备,比如,电脑、移动终端等,也可以为服务器等。
当工作人员希望对一个或多个信用证要求条款进行审核时,可以通过智能设备输入识别该一个或多个信用证要求条款的语义的处理请求,以通过该处理请求可以控制智能设备对该一个或多个信用证要求条款进行语义识别。其中,该处理请求中携带有该一个或多个信用证要求条款。示例性的,信用证要求条款为“COMMERCIAL INVOICE IN 1ORIGINALAND 4COPIES,DATED AND DULY SIGNED BY BENEFICIARY,MADE OUT THE APPLICANT WITHFULL ADDRESS.”。
需要说明的是,具体输入处理请求的方式有很多,比如,输入处理请求的方式可以是通过输入语音信息的方式输入,也可以对智能设备的显示屏上显示的虚拟按钮进行操作的方式输入等,具体实施过程中可以根据需求进行灵活设置,在此不做具体限定。当智能设备获取到处理请求后,可以将该处理请求发送至进行语义识别的电子设备。
进行语义识别的电子设备接收到该处理请求后,可以对该处理请求进行解析,获取该处理请求中携带的一个或多个信用证要求条款,从而确定当前是对哪些信用征要求条款进行语义识别。针对需要进行语义识别的每个信用证要求条款,基于本申请实施例提供的语义识别方法,对该信用证要求条款进行处理,从而实现对该信用证要求条款的语义识别。
具体实施过程中,可以采用分词处理的方式,对信用证要求条款中包含的语句进行切分,以获取该信用证要求条款中包含的每个词语(为了方便描述,记为目标词语)。
S102:根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点。
在本申请实施例中,预先配置有词语与节点的对应关系,以快速确定信用证要求条款中包含的每个目标词语分别对应的节点,进而提高后续根据每个目标词语分别对应的节点,确定信用证要求条款的语义的效率。
具体实施过程中,当基于上述的实施例获取到信用证要求条款中包含的每个目标词语后,可以针对每个目标词语,根据预先配置的词语与节点的对应关系,确定该目标词语对应的节点(为了方便描述,记为目标节点)。
在一种可能的实施方式中,考虑到信用证要求条款中存在一些数字、语言类型等词语(为了方便描述,记为通配词语),这些通配词语在不同的信用证要求条款中的具体内容可能是不同的,但不会影响该信用证要求条款的意图和槽位。如果对于这些通配词语均设置节点,则会极大地增加了节点的数量。因此,在本申请实施例中,可以针对这些通配词语对应的不同槽位,设置该槽位的通配词语所对应的通配类型以及该通配类型对应的节点,以通过通配类型对应的节点,统一表征该槽位的所有通配词语,这样可以极大地减少所需配置的节点数量,提高预先配置的词语与节点的对应关系的泛化性。当基于上述的实施例获取到信用证要求条款中包含的每个目标词语后,可以针对每个目标词语,先确定该目标词语所归属的第一类型。然后将该第一类型与预设的通配类型进行匹配。具体的,若确定该第一类型与预设的通配类型匹配,说明该目标词语可能是通配词语,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点。若该第一类型与每个通配类型均不匹配,说明该目标词语可能不是通配词语,则根据预先配置的词语与节点的对应关系,确定该目标词语对应的目标节点。
S103:按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语。
考虑到信用证要求条款一般包含了大量的信息,以及多种意图。因此,在对信用证要求条款的语义进行识别时,可以将对整个信用证要求条款的语义识别,转化为对该信用证要求条款包含的每个短句的语义识别,以通过该信用证要求条款包含的每个短句的语义,确定该整个信用证要求条款的语义识别。因此,在本申请实施例中,可以根据各种信用证要求条款中包含的短句以及各个短句所对应的语义,确定各个语义的短句模板。并针对各个短句模板,根据该短句模板中包含的各个节点,以及各个节点在该短句模板中的位置,确定各个节点之间的连接关系,以通过各个节点以及各个节点之间的连接关系,所确定的路径,准确地表达出该短句模板所对应的语义。
在一种可能的方式中,可以通过语义路径图表示词语与节点的对应关系、以及每个节点之间的连接关系,这样可以将不同语义的语句中的相同词语所对应的节点均是相同的,从而极大地减少配置的节点数量,减少存储节点所耗费的存储空间,并且从该语义路径图中并行确定每个目标路径,从而极大地提高确定目标路径的效率,提高对信用证要求条款进行审核的效率。其中,该语义路径图可以是通过有向无环图进行表示的。图2为本申请实施例提供的一种语义路径图。如图2所示,根据信用证要求条款“COMMERCIAL INVOICE IN1ORIGINAL AND 4COPIES,DATED AND DULY SIGNED BY BENEFICIARY,MADE OUT THEAPPLICANT WITH FULL ADDRESS.”所对应的各个短句模板,生成的语义路径图。
在一种可能的实施方式中,可以按照每个目标词语在该信用证要求条款中位置的顺序,根据预先配置每个节点之间的连接关系,确定该信用证要求条款中的每个目标节点之间的连接关系。根据该信用证要求条款中的每个目标节点之间的连接关系,可以确定该信用证要求条款中包含的至少一个路径(记为目标路径),即确定该信用证要求条款包含的至少一个短句,从而获取该信用证要求条款对应的目标路径组合。其中,该目标路径组合包括至少一个路径,该至少一个路径互不相同,且该至少一个路径包含的目标节点分别对应该信用证要求条款中不同位置的词语。
其中,任一目标路径均包含有路径起始点以及路径结束点。该路径起始点可以包括以下的一种或多种:未连接有父节点的目标节点,连接的父节点不为目标节点的目标节点,连接的父节点为路径结束点的目标节点。该路径结束点可以包括以下的一种或多种:未连接有子节点的目标节点,连接的子节点不为目标节点的目标节点,连接的子节点为路径起始点的目标节点。如图2所示,连接有“0”节点的节点为路径起始点,该“0”节点可以表征路径起始点对应的起点标识;连接有“end”节点的节点为路径结束点,该“end”节点可以表征路径结束点对应的结束标识。图2所示的语义路径图中,除“0”节点和“end”节点之外的其它节点均对应有词语,从“0”节点到“end”节点所经过的每个路径均对应有语义。
在一种示例中,可以通过如下两种方式按照每个目标词语在该信用证要求条款中位置的顺序,根据预先配置每个该节点之间的连接关系,获取该信用证要求条款对应的目标路径组合,包括:
方式I、基于传统的穷举法确定该信用证要求条款对应的目标路径组合。
例如,按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径。
然后将每个目标路径进行随机组合,确定所有路径组合,以根据该路径组合中包含的每个目标路径分别对应的语义,确定该信用证要求条款所对应的语义。
其中,为了避免一个路径组合中的多个目标路径,均表达信用证要求条款中的某一短句的语义,在一个路径组合中所包含的至少一个目标路径中,该至少一个目标路径包含的目标节点分别对应该信用证要求条款中不同位置的词语。
然后确定该信用证要求条款分别与每个路径组合的匹配度,以通过该匹配度表征哪一个路径组合对应的语义与该信用证要求条款的语义更相似。
其中,可以通过该信用证要求条款分别与每个路径组合之间的余弦相似度,确定该信用证要求条款分别与每个路径组合的匹配度,也可以通过欧式距离、余弦距离等确定。具体实施过程中,可以根据实际需求进行灵活设置,在此不做具体限定。
作为一种可能的实施方式,可以根据每个路径组合中包含的节点数量,即每个路径组合分别对应的第一数量,确定该信用证要求条款分别与每个路径组合的匹配度。例如,对于包含的节点数量越多的路径组合,该路径组合与该信用证要求条款的匹配度越高,对于包含的节点数量越少的路径组合,该路径组合与该信用证要求条款的匹配度越低。
在一种示例中,预先设置有第一分值。在根据每个路径组合中包含的节点数量,确定该信用证要求条款分别与每个路径组合的匹配度时,可以针对每个路径组合,确定该路径组合中的至少一个目标路径所包含的目标节点的数量(记为第一数量)。然后根据该第一数量以及预设的第一分值,确定该信用证要求条款与该路径组合的匹配度。
作为另一种可能的实施方式,还可以根据每个路径组合分别对应的第一数量、以及信用证要求条款中包含的目标词语的数量(记为第二数量),确定该信用证要求条款分别与每个路径组合的匹配度。
例如,针对每个路径组合,确定该路径组合中包含的节点数量,即确定第一数量,确定信用证要求条款中包含的目标词语的第二数量与该第一数量的差值,根据该第一数量以及该差值,确定该信用证要求条款分别与每个路径组合的匹配度。对于对应的差值越小的路径组合,该路径组合与该信用证要求条款的匹配度越高,对于对应的差值越大的路径组合,该路径组合与该信用证要求条款的匹配度越低。
再例如,预设有第一分值。在根据每个路径组合分别对应的第一数量以及第二数量,确定该信用证要求条款分别与每个路径组合的匹配度时,可以针对每个路径组合,根据第二数量以及该路径组合对应的第一数量,确定该路径组合对应的差值。根据该第一数量及预设的第一分值、和确定的差值,确定该路径组合与该信用证要求条款的匹配度。示例性的,确定该第一数量与预设的第一分值的乘积,将该乘积与该第二数量的和确定为该路径组合与该信用证要求条款的匹配度。
可选的,还可以预设有第二分值。根据该第一数量及预设的第一分值、和确定的差值,确定该路径组合与该信用证要求条款的匹配度时,可以根据该第一数量及预设的第一分值、和确定的差值及预设的第二分值,确定该路径组合与该信用证要求条款的匹配度。示例性的,确定该第一数量与预设的第一分值的乘积(记为第一乘积),并确定该差值与预设的第二分值的乘积(记为第二乘积),将第一乘积与第二乘积的和确定为该路径组合与该信用证要求条款的匹配度。
例如,图3为本申请实施例提供的一种路径组合的示意图。基于上述S101~S103的步骤,对信用证要求条款“COMMERCIAL INVOICE IN 1ORIGINAL AND 4COPIES,DATED ANDDULY SIGNED BY BENEFICIARY,MADE OUT THE APPLICANT WITH FULL ADDRESS.”进行处理,确定了如图3所示的4种路径组合,分别为组合1、组合2、组合3和组合4。若第一分值为1,第二分值为-100,则对于组合1对应的第一数量为20,差值为4,确定组合1与该信用证要求条款的匹配度为20*1+4*(-100)=-380;对于组合2对应的第一数量为16,差值为8,确定组合2与该信用证要求条款的匹配度为16*1+8*(-100)=-784;对于组合3对应的第一数量为16,差值为8,确定组合3与该信用证要求条款的匹配度为16*1+8*(-100)=-784;对于组合4对应的第一数量为19,差值为7,确定组合4与该信用证要求条款的匹配度为19*1+7*(-100)=-681。
需要说明的是,在设置第一分值和第二分值时,如果希望每个路径组合分别对应的匹配度具有差异性,可以将该第一分值与第二分值之间的差值尽可能的大,比如,将第一分值设置的尽可能的大,第二分值设置的尽可能的小。
当基于上述的实施例确定了信用证要求条款分别与每个路径组合的匹配度后,可以根据每个匹配度,确定与该信用证要求条款最匹配的路径组合,并将该路径组合确定为目标路径组合。
其中,根据每个匹配度确定与该信用证要求条款最匹配的路径组合时,若匹配度越大表征路径组合与该信用证要求条款越匹配,则可以将匹配度最大值所对应的路径组合确定为目标路径组合,若匹配度越小表征路径组合与该信用证要求条款越匹配,则可以将匹配度最小值所对应的路径组合确定为目标路径组合。具体实施过程中,可以根据实际需求进行灵活设置,在此不做具体限定。
方式II、通过动态规划算法确定该信用证要求条款对应的目标路径组合。
具体的,按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点,采用动态规划算法,确定该信用证要求条款对应的目标路径组合,从而实现在确定每个目标节点所归属的路径的同时,确定每个路径的组合,从而实现大大减少确定目标路径组合的时间复杂度。
S104:根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义。
当基于上述实施例获取到了目标路径组合后,可以确定目标路径组合中包含的至少一个目标路径,分别在该信用证要求条款中所对应的短句。然后按照每个短句在该信用证要求条款中的先后顺序,依次根据该目标路径组合中包含的至少一个目标路径分别对应的语义,确定该信用证要求条款的语义。
考虑到语义是由意图和槽位构成的,因此,在根据该目标路径组合中包含的至少一个目标路径分别对应的语义,确定该信用证要求条款的语义时,可通过如下方式确定:
方式A、预先配置有每种路径分别对应的意图。若该语义包括意图,则根据该目标路径组合中包含的至少一个目标路径分别对应的语义,确定该信用证要求条款的语义时,可以将该目标路径组合中的至少一个目标路径分别对应的意图,确定为该信用证要求条款的意图。
方式B、预先配置有一个或多个节点分别对应的槽位。若该语义包括槽位,则根据该目标路径组合中包含的至少一个目标路径分别对应的语义,确定该信用证要求条款的语义时,可以针对该目标路径组合中的至少一个目标路径,从该目标路径包含的所有节点中,确定对应有槽位的参考目标节点。然后根据该参考目标节点的节点名称,确定该信用证要求条款的槽位,并根据该参考目标节点在该信用证要求条款中对应的词语,确定该槽位对应的槽值。
当然,若语义包括槽位和意图,则可以针对该目标路径组合中包含的至少一个目标路径,采用上述的方式A确定该目标路径对应的意图,采用上述方式B确定该目标路径对应的槽位和槽值,然后将确定的意图、槽位和槽值进行拼接,确定该目标路径对应的语义。根据该目标路径组合中包含的至少一个目标路径分别对应的语义,确定该信用证要求条款的语义。
在一种可能的实施方式中,信用证要求条款中所包含的短句可能存在布尔属性,因此,可以预先设置每种路径分别对应的路径属性。当基于上述的实施例确定了目标路径组合之后,可以针对目标路径组合中的至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径,以使后续不再对根据该目标路径对应的语义确定信用证要求条款的语义。
由于预先配置的词语与节点的对应关系,可以快速确定信用证要求条款中包含的每个目标词语分别对应的目标节点。然后按照每个目标词语在该信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取该信用证要求条款对应的目标路径组合,而该目标路径组合中包含有至少一个目标路径,该至少一个目标路径互不相同,且至少一个目标路径包含的目标节点分别对应该信用证要求条款中不同位置的词语,避免了无法考虑到所有长度的信用证要求条款,所造成的只根据一个路径无法完全确定信用证要求条款的完整语义的情况,有利于提高后续确定该信用证要求条款的语义的准确性,也降低了不同节点之前的连接关系的复杂度。并且预先配置了每个路径分别对应的语义,使得后续根据目标路径组合中包含的每个目标路径分别对应的语义,可以快速且准确地确定该信用证要求条款的语义,提高了确定信用证要求条款的语义的效率,避免了信用证要求条款存在意图种类多、不同意图下所包含的实体各有不同、不同意图间句式表述相似、使用频次低的意图以及不同意图下所包含的使用频次低的实体均具有长尾分布特点、实体信息密集、不具有明显的上下文等特点,所导致的无法准确地获取信用证要求条款的语义的问题。
实施例2:
本申请实施例提供的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本申请实施例还提供了一种语义识别装置,图4为本申请实施例提供的一种语义识别装置的结构示意图,该装置包括:
获取单元41,用于获取信用证要求条款中包含的每个目标词语;
第一处理单元42,用于根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点;
第二处理单元43,用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;
第三处理单元44,用于根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义。
进一步地,所述第一处理单元42,具体用于针对所述每个目标词语,确定该目标词语所归属的第一类型;若所述第一类型与任一所述预设的通配类型匹配,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点;若所述第一类型与每个所述通配类型均不匹配,则根据所述词语与节点的对应关系,确定为该目标词语对应的目标节点。
进一步地,所述第二处理单元43,具体用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径;所述每个目标路径包含的节点均为目标节点;根据所述每个目标路径,确定每个路径组合;根据所述信用证要求条款分别与所述每个路径组合的匹配度,确定目标路径组合;或,按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点、以及动态规划算法,确定目标路径组合;其中,所述起点标识用于标识路径起始点,所述结束标识用于标识路径结束点。
进一步地,所述第二处理单元43,具体用于针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量以及预设的第一分值,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,所述第二处理单元43,具体用于确定所述信用证要求条款中包含的目标词语的第二数量;针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量及预设的第一分值、和所述第二数量,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,所述第三处理单元44,具体用于若所述语义包括意图,将所述目标路径组合中的所述至少一个目标路径分别对应的意图,确定为所述信用证要求条款的意图。
进一步地,所述第三处理单元44,具体用于若所述语义包括槽位,针对所述目标路径组合中的所述至少一个目标路径,从该目标路径包含的所有目标节点中,确定对应有槽位的参考目标节点;根据所述参考目标节点的节点名称,确定所述信用证要求条款的槽位;并根据所述参考目标节点在所述信用证要求条款中对应的词语,确定所述槽位对应的槽值。
进一步地,所述第三处理单元44,还用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合之后,根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义之前,针对所述目标路径组合中的所述至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径。
由于预先配置的词语与节点的对应关系,可以快速确定信用证要求条款中包含的每个目标词语分别对应的目标节点。然后按照每个目标词语在该信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取该信用证要求条款对应的目标路径组合,而该目标路径组合中包含有至少一个目标路径,该至少一个目标路径互不相同,且至少一个目标路径包含的目标节点分别对应该信用证要求条款中不同位置的词语,避免了无法考虑到所有长度的信用证要求条款,所造成的只根据一个路径无法完全确定信用证要求条款的完整语义的情况,有利于提高后续确定该信用证要求条款的语义的准确性,也降低了不同节点之前的连接关系的复杂度。并且预先配置了每个路径分别对应的语义,使得后续根据目标路径组合中包含的每个目标路径分别对应的语义,可以快速且准确地确定该信用证要求条款的语义,提高了确定信用证要求条款的语义的效率,避免了信用证要求条款存在意图种类多、不同意图下所包含的实体各有不同、不同意图间句式表述相似、使用频次低的意图以及不同意图下所包含的使用频次低的实体均具有长尾分布特点、实体信息密集、不具有明显的上下文等特点,所导致的无法准确地获取信用证要求条款的语义的问题。
实施例3:
本申请实施例提供的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
在上述实施例的基础上,本申请实施例还提供了一种电子设备,图5为本申请实施例提供的一种电子设备的结构示意图,如图5所示,包括:处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信;
存储器53中存储有计算机程序,当程序被处理器51执行时,使得处理器51执行如下步骤:
获取信用证要求条款中包含的每个目标词语;
根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点;
按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;
根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义。
进一步地,所述处理器51,具体用于针对所述每个目标词语,确定该目标词语所归属的第一类型;若所述第一类型与任一所述预设的通配类型匹配,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点;若所述第一类型与每个所述通配类型均不匹配,则根据所述词语与节点的对应关系,确定为该目标词语对应的目标节点。
进一步地,所述处理器51,具体用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径;所述每个目标路径包含的节点均为目标节点;根据所述每个目标路径,确定每个路径组合;根据所述信用证要求条款分别与所述每个路径组合的匹配度,确定目标路径组合;或,按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点、以及动态规划算法,确定目标路径组合;其中,所述起点标识用于标识路径起始点,所述结束标识用于标识路径结束点。
进一步地,所述处理器51,具体用于针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量以及预设的第一分值,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,所述处理器51,具体用于确定所述信用证要求条款中包含的目标词语的第二数量;针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量及预设的第一分值、和所述第二数量,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,所述处理器51,具体用于若所述语义包括意图,将所述目标路径组合中的所述至少一个目标路径分别对应的意图,确定为所述信用证要求条款的意图。
进一步地,所述处理器51,具体用于若所述语义包括槽位,针对所述目标路径组合中的所述至少一个目标路径,从该目标路径包含的所有目标节点中,确定对应有槽位的参考目标节点;根据所述参考目标节点的节点名称,确定所述信用证要求条款的槽位;并根据所述参考目标节点在所述信用证要求条款中对应的词语,确定所述槽位对应的槽值。
进一步地,所述处理器51,还用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合之后,根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义之前,针对所述目标路径组合中的所述至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径。
由于上述电子设备解决问题的原理与语义识别方法相似,因此上述电子设备的实施可以参见方法的实施例,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口52用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
由于预先配置的词语与节点的对应关系,可以快速确定信用证要求条款中包含的每个目标词语分别对应的目标节点。然后按照每个目标词语在该信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取该信用证要求条款对应的目标路径组合,而该目标路径组合中包含有至少一个目标路径,该至少一个目标路径互不相同,且至少一个目标路径包含的目标节点分别对应该信用证要求条款中不同位置的词语,避免了无法考虑到所有长度的信用证要求条款,所造成的只根据一个路径无法完全确定信用证要求条款的完整语义的情况,有利于提高后续确定该信用证要求条款的语义的准确性,也降低了不同节点之前的连接关系的复杂度。并且预先配置了每个路径分别对应的语义,使得后续根据目标路径组合中包含的每个目标路径分别对应的语义,可以快速且准确地确定该信用证要求条款的语义,提高了确定信用证要求条款的语义的效率,避免了信用证要求条款存在意图种类多、不同意图下所包含的实体各有不同、不同意图间句式表述相似、使用频次低的意图以及不同意图下所包含的使用频次低的实体均具有长尾分布特点、实体信息密集、不具有明显的上下文等特点,所导致的无法准确地获取信用证要求条款的语义的问题。
实施例4:
本申请实施例提供的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
在上述各实施例的基础上,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
获取信用证要求条款中包含的每个目标词语;
根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点;
按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;
根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义。
进一步地,所述根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点,包括:
针对所述每个目标词语,确定该目标词语所归属的第一类型;若所述第一类型与任一所述预设的通配类型匹配,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点;若所述第一类型与每个所述通配类型均不匹配,则根据所述词语与节点的对应关系,确定为该目标词语对应的目标节点。
进一步地,所述按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合,包括:
按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径;所述每个目标路径包含的节点均为目标节点;根据所述每个目标路径,确定每个路径组合;根据所述信用证要求条款分别与所述每个路径组合的匹配度,确定目标路径组合;或
按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点、以及动态规划算法,确定目标路径组合;
其中,所述起点标识用于标识路径起始点,所述结束标识用于标识路径结束点。
进一步地,确定所述信用证要求条款分别与所述每个路径组合的匹配度,包括:
针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量以及预设的第一分值,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,确定所述信用证要求条款分别与所述每个路径组合的匹配度,包括:
确定所述信用证要求条款中包含的目标词语的第二数量;
针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量及预设的第一分值、和所述第二数量,确定所述信用证要求条款与该路径组合的匹配度。
进一步地,若所述语义包括意图,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义,包括:
将所述目标路径组合中的所述至少一个目标路径分别对应的意图,确定为所述信用证要求条款的意图。
进一步地,若所述语义包括槽位,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义,包括:
针对所述目标路径组合中的所述至少一个目标路径,从该目标路径包含的所有目标节点中,确定对应有槽位的参考目标节点;根据所述参考目标节点的节点名称,确定所述信用证要求条款的槽位;并根据所述参考目标节点在所述信用证要求条款中对应的词语,确定所述槽位对应的槽值。
进一步地,所述按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合之后,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义之前,所述方法还包括:
针对所述目标路径组合中的所述至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径。
由于上述计算机可读存储介质解决问题的原理与语义识别方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施例,重复之处不再赘述。
由于预先配置的词语与节点的对应关系,可以快速确定信用证要求条款中包含的每个目标词语分别对应的目标节点。然后按照每个目标词语在该信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取该信用证要求条款对应的目标路径组合,而该目标路径组合中包含有至少一个目标路径,该至少一个目标路径互不相同,且至少一个目标路径包含的目标节点分别对应该信用证要求条款中不同位置的词语,避免了无法考虑到所有长度的信用证要求条款,所造成的只根据一个路径无法完全确定信用证要求条款的完整语义的情况,有利于提高后续确定该信用证要求条款的语义的准确性,也降低了不同节点之前的连接关系的复杂度。并且预先配置了每个路径分别对应的语义,使得后续根据目标路径组合中包含的每个目标路径分别对应的语义,可以快速且准确地确定该信用证要求条款的语义,提高了确定信用证要求条款的语义的效率,避免了信用证要求条款存在意图种类多、不同意图下所包含的实体各有不同、不同意图间句式表述相似、使用频次低的意图以及不同意图下所包含的使用频次低的实体均具有长尾分布特点、实体信息密集、不具有明显的上下文等特点,所导致的无法准确地获取信用证要求条款的语义的问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (17)
1.一种语义识别方法,其特征在于,所述方法包括:
获取信用证要求条款中包含的每个目标词语;
根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点;
按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;其中,任一目标路径均对应所述信用证要求条款中包含的短句;
根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义;
其中,所述按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合,包括:
按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径;所述每个目标路径包含的节点均为目标节点;根据所述每个目标路径随机组合,确定每个路径组合;其中,在一个路径组合中所包含的至少一个目标路径中,该至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;根据所述信用证要求条款分别与所述每个路径组合的匹配度,确定目标路径组合;或
按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点、以及动态规划算法,确定目标路径组合;
其中,所述起点标识用于标识路径起始点,所述结束标识用于标识路径结束点。
2.根据权利要求1所述的方法,其特征在于,所述根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点,包括:
针对所述每个目标词语,确定该目标词语所归属的第一类型;若所述第一类型与任一预设的通配类型匹配,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点;若所述第一类型与每个所述通配类型均不匹配,则根据所述词语与节点的对应关系,确定为该目标词语对应的目标节点。
3.根据权利要求1所述的方法,其特征在于,确定所述信用证要求条款分别与所述每个路径组合的匹配度,包括:
针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量以及预设的第一分值,确定所述信用证要求条款与该路径组合的匹配度。
4.根据权利要求1或3所述的方法,其特征在于,确定所述信用证要求条款分别与所述每个路径组合的匹配度,包括:
确定所述信用证要求条款中包含的目标词语的第二数量;
针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量及预设的第一分值、和所述第二数量,确定所述信用证要求条款与该路径组合的匹配度。
5.根据权利要求1所述的方法,其特征在于,若所述语义包括意图,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义,包括:
将所述目标路径组合中的所述至少一个目标路径分别对应的意图,确定为所述信用证要求条款的意图。
6.根据权利要求1或5所述的方法,其特征在于,若所述语义包括槽位,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义,包括:
针对所述目标路径组合中的所述至少一个目标路径,从该目标路径包含的所有目标节点中,确定对应有槽位的参考目标节点;根据所述参考目标节点的节点名称,确定所述信用证要求条款的槽位;并根据所述参考目标节点在所述信用证要求条款中对应的词语,确定所述槽位对应的槽值。
7.根据权利要求1所述的方法,其特征在于,所述按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合之后,所述根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义之前,所述方法还包括:
针对所述目标路径组合中的所述至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径。
8.一种语义识别装置,其特征在于,所述装置包括:
获取单元,用于获取信用证要求条款中包含的每个目标词语;
第一处理单元,用于根据预先配置的词语与节点的对应关系,确定所述每个目标词语分别对应的目标节点;
第二处理单元,用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合;其中,所述目标路径组合包括至少一个目标路径,所述至少一个目标路径互不相同,且所述至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;其中,任一目标路径均对应所述信用证要求条款中包含的短句;
第三处理单元,用于根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义;
其中,所述第二处理单元,具体用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系、对应有起点标识的目标节点、以及对应有结束标识的目标节点,确定每个目标路径;所述每个目标路径包含的节点均为目标节点;根据所述每个目标路径随机组合,确定每个路径组合;其中,在一个路径组合中所包含的至少一个目标路径中,该至少一个目标路径包含的目标节点分别对应所述信用证要求条款中不同位置的词语;根据所述信用证要求条款分别与所述每个路径组合的匹配度,确定目标路径组合;或,按照每个目标词语在所述信用证要求条款中位置的顺序,根据每个所述目标节点之间的连接关系、对应有起点标识的目标节点、对应有结束标识的目标节点、以及动态规划算法,确定目标路径组合;其中,所述起点标识用于标识路径起始点,所述结束标识用于标识路径结束点。
9.根据权利要求8所述的装置,其特征在于,所述第一处理单元,具体用于针对所述每个目标词语,确定该目标词语所归属的第一类型;若所述第一类型与任一预设的通配类型匹配,则将匹配的通配类型对应的节点确定为该目标词语对应的目标节点;若所述第一类型与每个所述通配类型均不匹配,则根据所述词语与节点的对应关系,确定为该目标词语对应的目标节点。
10.根据权利要求8所述的装置,其特征在于,所述第二处理单元,具体用于针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量以及预设的第一分值,确定所述信用证要求条款与该路径组合的匹配度。
11.根据权利要求8或10所述的装置,其特征在于,所述第二处理单元,具体用于确定所述信用证要求条款中包含的目标词语的第二数量;针对所述每个路径组合,确定该路径组合中的所述至少一个目标路径所包含的目标节点的第一数量;根据所述第一数量及预设的第一分值、和所述第二数量,确定所述信用证要求条款与该路径组合的匹配度。
12.根据权利要求8所述的装置,其特征在于,所述第三处理单元,具体用于若所述语义包括意图,将所述目标路径组合中的所述至少一个目标路径分别对应的意图,确定为所述信用证要求条款的意图。
13.根据权利要求8或12所述的装置,其特征在于,所述第三处理单元,具体用于若所述语义包括槽位,针对所述目标路径组合中的所述至少一个目标路径,从该目标路径包含的所有目标节点中,确定对应有槽位的参考目标节点;根据所述参考目标节点的节点名称,确定所述信用证要求条款的槽位;并根据所述参考目标节点在所述信用证要求条款中对应的词语,确定所述槽位对应的槽值。
14.根据权利要求8所述的装置,其特征在于,所述第三处理单元,还用于按照每个目标词语在所述信用证要求条款中位置的顺序,根据预先配置每个所述节点之间的连接关系,获取所述信用证要求条款对应的目标路径组合之后,根据所述目标路径组合中的所述至少一个目标路径分别对应的语义,确定所述信用证要求条款的语义之前,针对所述目标路径组合中的所述至少一个目标路径,若该目标路径对应的路径属性为布尔属性,则将该目标路径对应的布尔值输出并删除该目标路径。
15.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述语义识别方法的步骤。
16.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述语义识别方法的步骤。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如权利要求1-7中任一所述一种语义识别方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111486876.8A CN114169334B (zh) | 2021-12-07 | 2021-12-07 | 一种语义识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111486876.8A CN114169334B (zh) | 2021-12-07 | 2021-12-07 | 一种语义识别方法、装置、设备及介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN114169334A CN114169334A (zh) | 2022-03-11 |
| CN114169334B true CN114169334B (zh) | 2026-01-09 |
Family
ID=80484068
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111486876.8A Active CN114169334B (zh) | 2021-12-07 | 2021-12-07 | 一种语义识别方法、装置、设备及介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114169334B (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115049358B (zh) * | 2022-06-14 | 2025-05-06 | 中国建设银行股份有限公司 | 一种跟单信用证的处理方法及装置 |
| CN116226441A (zh) * | 2023-01-30 | 2023-06-06 | 北京奇艺世纪科技有限公司 | 推荐算法服务处理方法、装置、电子设备及存储介质 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110569507A (zh) * | 2019-09-09 | 2019-12-13 | 北京金鑫魔方科技有限责任公司 | 语义识别方法、装置、设备及存储介质 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111522994B (zh) * | 2020-04-15 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
| CN113488034A (zh) * | 2020-04-27 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
| CN112487153B (zh) * | 2020-12-17 | 2024-04-05 | 广州华多网络科技有限公司 | 歌词内容生成方法及其相应的装置、设备、介质 |
-
2021
- 2021-12-07 CN CN202111486876.8A patent/CN114169334B/zh active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110569507A (zh) * | 2019-09-09 | 2019-12-13 | 北京金鑫魔方科技有限责任公司 | 语义识别方法、装置、设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114169334A (zh) | 2022-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI897104B (zh) | 敏感性資料識別方法、裝置、設備及電腦存儲介質 | |
| CN106776936B (zh) | 智能交互方法和系统 | |
| WO2019109918A1 (zh) | 摘要文本生成方法、计算机可读存储介质和计算机设备 | |
| WO2019242124A1 (zh) | 金额信息的提取方法、装置、终端设备及介质 | |
| CN113434542B (zh) | 数据关系识别方法、装置、电子设备及存储介质 | |
| CN111832300A (zh) | 基于深度学习的合同审核方法和装置 | |
| CN114169334B (zh) | 一种语义识别方法、装置、设备及介质 | |
| CN110110083A (zh) | 一种文本的情感分类方法、装置、设备及存储介质 | |
| CN117407726A (zh) | 一种业务数据智能匹配方法、系统及存储介质 | |
| CN119204205A (zh) | 一种基于大模型rag技术的信贷业务系统演化方法及装置 | |
| CN113918709A (zh) | 一种行业分类模型训练方法、分类方法与装置 | |
| CN118606438A (zh) | 数据分析方法、装置、计算机设备、可读存储介质和程序产品 | |
| CN118586397A (zh) | 意图识别方法、装置、计算机设备、可读存储介质和程序产品 | |
| CN118885587A (zh) | 问答处理方法、装置及非易失性存储介质 | |
| CN118468846A (zh) | 文本事实性校验方法、装置、设备及介质 | |
| CN116414987A (zh) | 基于人工智能的文本分类方法及相关设备 | |
| CN115934972A (zh) | 一种合同审阅方法及装置 | |
| CN112434504B (zh) | 生成文件信息的方法、装置、电子设备和计算机可读介质 | |
| CN114780577A (zh) | Sql语句生成方法、装置、设备及存储介质 | |
| CN110008352A (zh) | 实体发现方法及装置 | |
| CN120278128A (zh) | 一种基于大模型的标书生成方法及系统 | |
| CN114547234A (zh) | 识别文本中情感语句的方法、装置、电子设备及介质 | |
| CN117591547B (zh) | 数据库的查询方法、装置、终端设备以及存储介质 | |
| CN115017385B (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
| CN118551993A (zh) | 任务分配方法、装置、设备、介质及产品 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |