CN114092057A - 一种项目模型的构建方法、装置、终端设备和存储介质 - Google Patents
一种项目模型的构建方法、装置、终端设备和存储介质 Download PDFInfo
- Publication number
- CN114092057A CN114092057A CN202111396722.XA CN202111396722A CN114092057A CN 114092057 A CN114092057 A CN 114092057A CN 202111396722 A CN202111396722 A CN 202111396722A CN 114092057 A CN114092057 A CN 114092057A
- Authority
- CN
- China
- Prior art keywords
- model
- label
- combination
- target
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请适用于人工智能技术领域,提供一种项目模型的构建方法、装置、终端设备和存储介质。该方法包括:获取与待构建的目标项目模型关联的数据源文本;对所述数据源文本执行结构化字段提取处理,得到多个标签;根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合;针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重;根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型。与人工设置模型因子类别以及权重的传统方法相比,采用本申请提出的方法能够有效提高构建项目模型的效率。
Description
技术领域
本申请涉及人工智能技术领域,提供一种项目模型的构建方法、装置、终端设备和存储介质。
背景技术
在金融投资领域,人们通常会构建各种项目模型用于辅助进行投资决策,一个项目模型的好坏可以直接影响投资的结果。目前,常规的项目模型构建方法如下:在EXCEL等软件中人工完成项目模型的因子规划、整理,设置因子类别以及权重,然后定制开发实现。然而,采用这种方法操作繁琐,构建项目模型的效率较低。
发明内容
有鉴于此,本申请提出一种项目模型的构建方法、装置、终端设备和存储介质,能够提高构建项目模型的效率。
第一方面,本申请实施例提供了一种项目模型的构建方法,包括:
获取与待构建的目标项目模型关联的数据源文本;
对所述数据源文本执行结构化字段提取处理,得到多个标签;
根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合;
针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重;
根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型。
本申请实施例采用结构化字段提取的方式从数据源文本中提取出构建项目模型相关的标签,然后对这些标签进行分组得到各个标签组合,并基于各个标签组合包含的标签获得对应的模型因子以及模型因子的权重,从而构建出相应的项目模型。与人工设置模型因子类别以及权重的传统方法相比,采用本申请提出的方法能够有效提高构建项目模型的效率。
在本申请的一个实施例中,所述根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合,可以包括:
针对所述多个标签中的任意一个目标标签,提取所述目标标签的非数值字符串;
将所述非数值字符串分别和各个预设标签类别对应的特征字符串进行匹配,得到每个所述预设标签类别的字符串匹配度;
将所述目标标签划分到所述各个预设标签类别中所述字符串匹配度最高的标签类别所对应的标签组合中。
在本申请的一个实施例中,所述针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,可以包括:
针对所述一个以上的标签组合中的任意一个目标标签组合,查找与所述目标标签组合包含的标签对应的模型因子,并将查找到的模型因子确定为所述目标标签组合对应的模型因子;
根据所述目标标签组合包含的标签数量确定所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
进一步的,所述根据所述目标标签组合包含的标签数量确定所述目标标签组合对应的模型因子在所述目标项目模型中的权重,可以包括:
统计所述一个以上的标签组合包含的标签总数量;
计算所述目标标签组合包含的标签数量在所述标签总数量中的占比;
将所述占比确定为所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
在本申请的一个实施例中,在针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重之后,还可以包括:
根据预设的评分逻辑分别对每个所述标签组合包含的每个标签进行评分,得到每个标签的分值;
分别统计每个所述标签组合包含的所有标签的分值之和,得到每个所述标签组合的标签总分值;
根据每个所述标签组合的标签总分值,对每个所述标签组合对应的模型因子在所述目标项目模型中的权重进行调整。
在本申请的一个实施例中,所述根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型,可以包括:
根据所述目标项目模型的类别获取对应的通用项目模型,所述通用项目模型包含预设算法、预设模型因子以及预设因子权重;
使用每个所述标签组合对应的模型因子替换所述预设模型因子,以及使用每个所述标签组合对应的模型因子在所述目标项目模型中的权重替换所述预设因子权重,得到所述目标项目模型。
在本申请的一个实施例中,在对所述数据源文本执行结构化字段提取处理,得到多个标签之后,还可以包括:
获取与所述目标项目模型对应的指标信息;
将所述多个标签中与所述指标信息非关联的标签删除。
第二方面,本申请实施例提供了一种项目模型的构建装置,包括:
数据源文本获取模块,用于获取与待构建的目标项目模型关联的数据源文本;
结构化字段提取模块,用于对所述数据源文本执行结构化字段提取处理,得到多个标签;
标签组合划分模块,用于根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合;
模型因子及权重确定模块,用于针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重;
项目模型构建模块,用于根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例第一方面提出的项目模型的构建方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的项目模型的构建方法。
第五方面,本申请实施例提供了一种计算机程序产品,当该计算机程序产品在终端设备上运行时,使得该终端设备执行如本申请实施例第一方面提出的项目模型的构建方法。
上述第二方面至第五方面所能实现的有益效果,可以参照上述第一方面的相关说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种项目模型的构建方法的一个实施例的流程图;
图2是本申请实施例提供的项目模型的构建方法的操作原理示意图;
图3是本申请实施例提供的一种项目模型的构建装置的一个实施例的结构图;
图4是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
投资领域中一个项目模型的好坏可以直接影响投资的结果,因此项目模型的构建至关重要。如何快速的在系统内构建、验证、迭代和发布项目模型,既是用户的期望,也是投资软件厂商不得不面对的问题,谁先快速的找到方法并得到验证就可能占领整个市场。一般的项目模型构建方法,是根据用户的想法或实际已经在用的模型,在Excel等软件中完成模型的因子规划和整理,设定好因子类别及权重,然后进行定制开发实现,并在信息系统进行回归验证。当用户想法变化或有新想法时,需要按照前面的方法重复迭代,显然采用这种方法构建项目模型的效率较低。
有鉴于此,本申请提出一种项目模型的构建方法,能够提高构建项目模型的效率。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应当理解,本申请实施例提供的项目模型的构建方法的执行主体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、大屏电视等终端设备或者服务器,本申请实施例对该终端设备和服务器的具体类型不作任何限制。这里的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,本申请实施例中一种项目模型的构建方法的第一个实施例包括:
101、获取与待构建的目标项目模型关联的数据源文本;
目标项目模型是需要构建的项目模型,一个项目模型通常包含预置算法,多个设定的模型因子以及每个模型因子在该项目模型中的权重等因素,采用本申请提出的方法能够自动生成项目模型的各个模型因子以及这些模型因子的权重,从而高效地构建出该目标项目模型。
首先,获取与目标项目模型关联的数据源文本,该数据源文本是与目标项目模型关联的文本材料。假设用户想要构建一个金融投资类的项目模型,则可以获取金融投资领域相关的文本材料,例如最新的金融投资类分析文章,或者历史投资指标数据等作为数据源文本,可以理解的是,这里的数据源文本可以包括一个或者多个不同的文本材料。
102、对所述数据源文本执行结构化字段提取处理,得到多个标签;
在获取数据源文本之后,可以对该数据源文本执行结构化字段的提取处理,从而得到多个标签,这些标签可以纳入标签池进行统一管理。具体的,可以将系统内最小粒度的结构化字段(例如该目标项目模型所属的行业分类,可以包括多级的分类)提取出来作为各个标签。提取到的标签,根据标签自身的属性类别可以大致划分为以下两类:(1)定量的标签,例如:各种类型的指标数值(例如税息折旧及摊销前利润,内部收益率等),各种指标等级(例如等级1-5等);(2)定性的标签,例如:是,否。
在本申请实施例的一种实现方式中,在对所述数据源文本执行结构化字段提取处理,得到多个标签之后,还可以包括:
(1)获取与所述目标项目模型对应的指标信息;
(2)将所述多个标签中与所述指标信息非关联的标签删除。
指标信息用于指示该目标项目模型在使用时所要输出的各项指标,例如投资回报率,投资周期,等等。在实际操作中,可以预先设置各个项目模型指标与各个标签的关联关系,在得到所述多个标签之后,分别检测其中的每个标签是否与该目标项目模型在使用时所要输出的各项指标中的至少一个指标相关联,若是则保留该标签,若否则将该标签删除。采用结构化字段提取到的标签很多且比较杂,这些标签中可能存在一部分标签是与该目标项目模型的各项指标均无关的,通过将这部分无关的标签删除,能够提高构建目标项目模型的合理性,且在一定程度上减少了计算量。
103、根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合;
在提取出多个标签之后,根据这些标签的类别划分出各个标签组合,其中每个标签组合包含至少一个标签,每个标签组合对应一个标签类别。需要说明的是,这里的标签类别不是指标签自身的属性类别,而是按照一定的规则将各个标签归入的预设类别。例如,若预设一个标签类别为财务类的标签组合,则可以将该多个标签(标签池)中所有财务类相关的标签都划入到该标签组合中,划入的标签可以包括定量的标签,也可以包括定性的标签。另外,同一个标签可以划分到多个不同的标签类别,也即可以划分到多个不同的标签组合中,例如,标签“是”和“否”,可以同时划分到财务类的标签组合以及风控类的标签组合中。在实际操作中,可以由专家用户根据标签的类别和特征将标签划分到不同的标签组合,也可以由普通用户进行分类并由专家用户审核,确认每个标签组合包含的标签能够体现该标签组合的特征。
在本申请实施例的一种实现方式中,可以实现标签的自动分类,所述根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合,可以包括:
(1)针对所述多个标签中的任意一个目标标签,提取所述目标标签的非数值字符串;
(2)将所述非数值字符串分别和各个预设标签类别对应的特征字符串进行匹配,得到每个所述预设标签类别的字符串匹配度;
(3)将所述目标标签划分到所述各个预设标签类别中所述字符串匹配度最高的标签类别所对应的标签组合中。
例如,针对该多个标签中的某个目标标签“行业毛利率30%”,首先提取出其非数值字符串“行业毛利率”,然后将“行业毛利率”和每个预设标签类别(如财务类、风控类、项目管理类等)对应的特征字符串进行匹配,得到每个预设标签类别分别对应的字符串匹配度。每个标签类别对应的特征字符串预先设置,比如财务类可以对应“毛利率”、“利润率”、“成本”等多个特征字符串,在将非数值字符串“行业毛利率”与财务类对应的所有特征字符串进行匹配之后,发现特征字符串“毛利率”与“行业毛利率”的匹配度最高,则可以将“毛利率”与“行业毛利率”的匹配度确定为财务类对应的字符串匹配度;以此类推,可以得到所有预设标签类别分别对应的字符串匹配度。最后,若财务类对应的字符串匹配度在所有预设标签类别中是最高的,则可以将该目标标签“行业毛利率30%”划分到财务类的标签组合中。以此类推,可以对该多个标签中的每个标签都执行和该目标标签相同的处理方式,从而完成该多个标签的自动分类。另外,为了提高标签分类的准确率,在完成自动分类之后,还可以由专家用户对分类结果进行审核更正。
104、针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重;
在将该多个标签划分到各个标签组合之后,每个标签组合都可以生成一个对应的模型因子以及该模型因子在该目标项目模型中的权重。由于每个标签组合都是和预设标签类别对应的,即最终生成的目标项目模型包含的是各个标签类别对应的模型因子以及因子权重。假设总共有财务类、风控类、项目管理类3个标签组合,其中财务类标签组合包含“标签1,标签4和标签7”3个标签,风控类标签组合包含“标签2和标签5”2个标签,项目管理类标签组合包含“标签3,标签6,标签8,标签9和标签10”5个标签。示例的,根据财务类标签组合包含的“标签1,标签4和标签7”可以确定财务类对应的模型因子A以及模型因子A在该目标项目模型中的权重;根据风控类标签组合包含的“标签2和标签5”可以确定风控类对应的模型因子B以及模型因子B在该目标项目模型中的权重;根据项目管理类标签组合包含的“标签3,标签6,标签8,标签9和标签10”可以确定项目管理类对应的模型因子C以及模型因子C在该目标项目模型中的权重。具体的,可以预先设置各个标签和各个模型因子之间的对应关系,而各个模型因子的权重可以按照默认值设置,也可以根据对应的各个标签进行设置。针对默认值,可以平均设置或者按照模型因子A、模型因子B和模型因子C的重要程度(各个模型因子的重要程度可以由专家用户预先设置)设置,例如可以设置模型因子A的权重为50%,模型因子B的权重为30%,模型因子C的权重为20%。
在本申请实施例的一种实现方式中,所述针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,可以包括:
(1)针对所述一个以上的标签组合中的任意一个目标标签组合,查找与所述目标标签组合包含的标签对应的模型因子,并将查找到的模型因子确定为所述目标标签组合对应的模型因子;
(2)根据所述目标标签组合包含的标签数量确定所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
可以预先设置各个标签与模型因子之间的对应关系,例如:模型因子“行业评价”,可以与标签“行业规模XX,行业毛利率XX,行业增长率XX”(XX表示一定的数值)对应。针对上述例子,根据财务类标签组合包含的“标签1,标签4和标签7”可以确定财务类对应的模型因子A,以及该模型因子A在该目标项目模型中的权重,具体可以是根据财务类标签组合包含的标签数量(3个)来确定相应的权重,一般来说,标签数量越多则可以设置越大的权重。
进一步的,所述根据所述目标标签组合包含的标签数量确定所述目标标签组合对应的模型因子在所述目标项目模型中的权重,可以包括:
(1)统计所述一个以上的标签组合包含的标签总数量;
(2)计算所述目标标签组合包含的标签数量在所述标签总数量中的占比;
(3)将所述占比确定为所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
例如,在上述例子中,财务类、风控类、项目管理类3个标签组合总共包含10个标签,其中财务类标签组合包含3个标签,占比为30%,故可以将财务类标签组合对应的模型因子A在该目标项目模型中的权重设置为30%。以此类推,可以得到风控类标签组合对应的模型因子B在该目标项目模型中的权重为20%,项目管理类标签组合对应的模型因子C在该目标项目模型中的权重为50%。
在本申请实施例的一种实现方式中,在针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重之后,还可以包括:
(1)根据预设的评分逻辑分别对每个所述标签组合包含的每个标签进行评分,得到每个标签的分值;
(2)分别统计每个所述标签组合包含的所有标签的分值之和,得到每个所述标签组合的标签总分值;
(3)根据每个所述标签组合的标签总分值,对每个所述标签组合对应的模型因子在所述目标项目模型中的权重进行调整。
对于步骤(1),针对不同属性类别的标签可以分别设置对应的评分逻辑,例如,针对定量的标签“行业毛利率35%”,可以设置数值范围与评分的对应关系,例如50%以上对应100分,40%-50%对应90分,30%-40%对应80分…则可以确定标签“行业毛利率35%”的分值为80;针对定量的标签“风险等级2”,可以设置数值等级与评分的对应关系,例如等级0对应100分,等级1对应80分,等级2对应60分…则可以确定标签“风险等级2”的分值为60;针对定性的标签“是”和“否”,可以设置“是”对应100分,“否”对应0分,等等。
对于步骤(2),分别计算每个标签组合的标签总分值,具体是计算其包含的所有标签的分值之和。例如,对于上述例子中的财务类标签组合,其包含标签1,标签4和标签7,若标签1的分值为100,标签4的分值为0,标签7的分值为50,则可以计算得到财务类标签组合的标签总分值为150。
对于步骤(3),根据标签组合的标签总分值的高低,可以调整其对应的模型因子在该目标项目模型中的权重。具体的调整准则可以是:若某个标签组合的标签总分值高于设定阈值,则可以按照一定比例调高其对应的模型因子在该目标项目模型中的权重;若某个标签组合的标签总分值低于设定阈值,则可以按照一定比例调低其对应的模型因子在该目标项目模型中的权重。另外,也可以按照各个标签组合的标签总分值在所有标签组合的标签总分值之和中的占比来设置调整后的权重。例如,在上述例子中,若财务类标签组合的标签总分值为150,风控类标签组合的标签总分值为300、项目管理类标签组合的标签总分值为150,则可以确定所有标签组合的标签总分值之和为600,其中财务类标签组合的标签总分值占比为25%,故可以将财务类标签组合对应的模型因子A在该目标项目模型中的权重调低为25%,以此类推。按照各个标签的评分数值对相应的模型因子权重进行调整,能够在一定程度上提高构建得到的项目模型的合理性和有效性。
105、根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型。
在确定该目标项目模型包含的各个模型因子以及每个模型因子的权重之后,即可构建得到该目标项目模型。例如,在上述例子中,可以构建出一个包含3个模型因子(模型因子A,模型因子B和模型因子C),且每个模型因子的权重为相应数值(模型因子A的权重为30%,模型因子B的权重为20%,模型因子C的权重为50%)的目标项目模型。
在本申请实施例的一种实现方式中,所述根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型,可以包括:
(1)根据所述目标项目模型的类别获取对应的通用项目模型,所述通用项目模型包含预设算法、预设模型因子以及预设因子权重;
(2)使用每个所述标签组合对应的模型因子替换所述预设模型因子,以及使用每个所述标签组合对应的模型因子在所述目标项目模型中的权重替换所述预设因子权重,得到所述目标项目模型。
在实际操作中,可以设置多个不同种类的通用项目模型,每个通用项目模型都设置好相应的算法,默认的模型因子以及因子权重。根据所要构建的目标项目模型的类别,例如是金融投资类,则可以获取金融投资类的通用项目模型,然后使用步骤104中确定的模型因子对该通用项目模型的模型因子进行替换,使用步骤104中确定的模型因子权重,对该通用项目模型的模型因子权重进行替换,即可得到该目标项目模型。通过这样设置,只需执行模型因子以及因子权重的替换即可构建出相应的项目模型,能够有效减少模型构建的工作量,提高项目模型构建的效率。
本申请实施例采用结构化字段提取的方式从数据源文本中提取出构建项目模型相关的标签,然后对这些标签进行分组得到各个标签组合,并基于各个标签组合包含的标签获得对应的模型因子以及模型因子的权重,从而构建出相应的项目模型。与人工设置模型因子类别以及权重的传统方法相比,采用本申请提出的方法能够有效提高构建项目模型的效率。
如图2所示,为本申请提出的项目模型的构建方法的操作原理示意图。在图2中,首先通过结构化字段提取的方式从数据源文本中提取出各个标签,这些标签被存储到一个标签池中。然后,对标签池中的各个标签进行分类,得到各个标签组合,其中每个标签组合均包含一个以上的标签。接着,针对每个标签组合,可以分别生成对应的模型因子以及模型因子的权重。最后,基于获得的模型因子以及模型因子的权重,即可构建出相应的项目模型。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的项目模型的构建方法,图3示出了本申请实施例提供的一种项目模型的构建装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图3,该装置包括:
数据源文本获取模块301,用于获取与待构建的目标项目模型关联的数据源文本;
结构化字段提取模块302,用于对所述数据源文本执行结构化字段提取处理,得到多个标签;
标签组合划分模块303,用于根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合;
模型因子及权重确定模块304,用于针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重;
项目模型构建模块305,用于根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型。
在本申请的一个实施例中,所述标签组合划分模块可以包括:
非数值字符串提取单元,用于针对所述多个标签中的任意一个目标标签,提取所述目标标签的非数值字符串;
字符串匹配单元,用于将所述非数值字符串分别和各个预设标签类别对应的特征字符串进行匹配,得到每个所述预设标签类别的字符串匹配度;
标签划分单元,用于将所述目标标签划分到所述各个预设标签类别中所述字符串匹配度最高的标签类别所对应的标签组合中。
在本申请的一个实施例中,所述模型因子及权重确定模块可以包括:
模型因子查找单元,用于针对所述一个以上的标签组合中的任意一个目标标签组合,查找与所述目标标签组合包含的标签对应的模型因子,并将查找到的模型因子确定为所述目标标签组合对应的模型因子;
因子权重确定单元,用于根据所述目标标签组合包含的标签数量确定所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
进一步的,所述因子权重确定单元可以包括:
标签数量统计子单元,用于统计所述一个以上的标签组合包含的标签总数量;
标签数量占比计算单元,用于计算所述目标标签组合包含的标签数量在所述标签总数量中的占比;
权重确定子单元,用于将所述占比确定为所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
在本申请的一个实施例中,所述项目模型的构建装置还可以包括:
标签评分模块,用于根据预设的评分逻辑分别对每个所述标签组合包含的每个标签进行评分,得到每个标签的分值;
标签分值统计模块,用于分别统计每个所述标签组合包含的所有标签的分值之和,得到每个所述标签组合的标签总分值;
因子权重调整模块,用于根据每个所述标签组合的标签总分值,对每个所述标签组合对应的模型因子在所述目标项目模型中的权重进行调整。
在本申请的一个实施例中,所述项目模型构建模块可以包括:
通用项目模型获取单元,用于根据所述目标项目模型的类别获取对应的通用项目模型,所述通用项目模型包含预设算法、预设模型因子以及预设因子权重;
模型因子及权重替换单元,用于使用每个所述标签组合对应的模型因子替换所述预设模型因子,以及使用每个所述标签组合对应的模型因子在所述目标项目模型中的权重替换所述预设因子权重,得到所述目标项目模型。
在本申请的一个实施例中,所述项目模型的构建装置还可以包括:
指标信息获取模块,用于获取与所述目标项目模型对应的指标信息;
标签删除模块,用于将所述多个标签中与所述指标信息非关联的标签删除。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1表示的任意一种项目模型的构建方法。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品在服务器上运行时,使得服务器执行实现如图1表示的任意一种项目模型的构建方法。
图4是本申请一实施例提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42。所述处理器40执行所述计算机可读指令42时实现上述各个项目模型的构建方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至305的功能。
示例性的,所述计算机可读指令42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令42在所述终端设备4中的执行过程。
所述终端设备4可以是智能手机、笔记本、掌上电脑及云端终端设备等计算设备。所述终端设备4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备4还可以包括输入输出设备、网络接入设备、总线等。
所述处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种项目模型的构建方法,其特征在于,包括:
获取与待构建的目标项目模型关联的数据源文本;
对所述数据源文本执行结构化字段提取处理,得到多个标签;
根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合;
针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重;
根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合,包括:
针对所述多个标签中的任意一个目标标签,提取所述目标标签的非数值字符串;
将所述非数值字符串分别和各个预设标签类别对应的特征字符串进行匹配,得到每个所述预设标签类别的字符串匹配度;
将所述目标标签划分到所述各个预设标签类别中所述字符串匹配度最高的标签类别所对应的标签组合中。
3.如权利要求1所述的方法,其特征在于,所述针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,包括:
针对所述一个以上的标签组合中的任意一个目标标签组合,查找与所述目标标签组合包含的标签对应的模型因子,并将查找到的模型因子确定为所述目标标签组合对应的模型因子;
根据所述目标标签组合包含的标签数量确定所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
4.如权利要求3所述的方法,其特征在于,所述根据所述目标标签组合包含的标签数量确定所述目标标签组合对应的模型因子在所述目标项目模型中的权重,包括:
统计所述一个以上的标签组合包含的标签总数量;
计算所述目标标签组合包含的标签数量在所述标签总数量中的占比;
将所述占比确定为所述目标标签组合对应的模型因子在所述目标项目模型中的权重。
5.如权利要求1所述的方法,其特征在于,在针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重之后,还包括:
根据预设的评分逻辑分别对每个所述标签组合包含的每个标签进行评分,得到每个标签的分值;
分别统计每个所述标签组合包含的所有标签的分值之和,得到每个所述标签组合的标签总分值;
根据每个所述标签组合的标签总分值,对每个所述标签组合对应的模型因子在所述目标项目模型中的权重进行调整。
6.如权利要求1所述的方法,其特征在于,所述根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型,包括:
根据所述目标项目模型的类别获取对应的通用项目模型,所述通用项目模型包含预设算法、预设模型因子以及预设因子权重;
使用每个所述标签组合对应的模型因子替换所述预设模型因子,以及使用每个所述标签组合对应的模型因子在所述目标项目模型中的权重替换所述预设因子权重,得到所述目标项目模型。
7.如权利要求1至6中任一项所述的方法,其特征在于,在对所述数据源文本执行结构化字段提取处理,得到多个标签之后,还包括:
获取与所述目标项目模型对应的指标信息;
将所述多个标签中与所述指标信息非关联的标签删除。
8.一种项目模型的构建装置,其特征在于,包括:
数据源文本获取模块,用于获取与待构建的目标项目模型关联的数据源文本;
结构化字段提取模块,用于对所述数据源文本执行结构化字段提取处理,得到多个标签;
标签组合划分模块,用于根据所述多个标签的类别将所述多个标签划分为一个以上的标签组合;
模型因子及权重确定模块,用于针对每个所述标签组合,根据该标签组合包含的标签确定与该标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重;
项目模型构建模块,用于根据每个所述标签组合对应的模型因子以及所述模型因子在所述目标项目模型中的权重,构建得到所述目标项目模型。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的项目模型的构建方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的项目模型的构建方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111396722.XA CN114092057A (zh) | 2021-11-23 | 2021-11-23 | 一种项目模型的构建方法、装置、终端设备和存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111396722.XA CN114092057A (zh) | 2021-11-23 | 2021-11-23 | 一种项目模型的构建方法、装置、终端设备和存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN114092057A true CN114092057A (zh) | 2022-02-25 |
Family
ID=80303436
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111396722.XA Pending CN114092057A (zh) | 2021-11-23 | 2021-11-23 | 一种项目模型的构建方法、装置、终端设备和存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114092057A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116562649A (zh) * | 2023-05-12 | 2023-08-08 | 实道时代(北京)科技有限公司 | 基于人工智能的投资决策管理方法、系统及存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111932267A (zh) * | 2020-07-27 | 2020-11-13 | 中国工商银行股份有限公司 | 企业金融服务风险预测方法及装置 |
| CN112000748A (zh) * | 2020-07-14 | 2020-11-27 | 北京神州泰岳智能数据技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
| CN112579771A (zh) * | 2020-12-08 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
| CN113554184A (zh) * | 2021-07-22 | 2021-10-26 | 上海晓途网络科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-23 CN CN202111396722.XA patent/CN114092057A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112000748A (zh) * | 2020-07-14 | 2020-11-27 | 北京神州泰岳智能数据技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
| CN111932267A (zh) * | 2020-07-27 | 2020-11-13 | 中国工商银行股份有限公司 | 企业金融服务风险预测方法及装置 |
| CN112579771A (zh) * | 2020-12-08 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
| CN113554184A (zh) * | 2021-07-22 | 2021-10-26 | 上海晓途网络科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116562649A (zh) * | 2023-05-12 | 2023-08-08 | 实道时代(北京)科技有限公司 | 基于人工智能的投资决策管理方法、系统及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108846520B (zh) | 贷款逾期预测方法、装置以及计算机可读存储介质 | |
| CN115391669B (zh) | 一种智能推荐方法、装置、电子设备 | |
| CN113934868A (zh) | 政务大数据治理方法及系统 | |
| CN115204971B (zh) | 产品推荐方法、装置、电子设备及计算机可读存储介质 | |
| CN112328909A (zh) | 信息推荐方法、装置、计算机设备及介质 | |
| CN112148986B (zh) | 一种基于众包的top-N服务再推荐方法及系统 | |
| CN120471668B (zh) | 一种基于多维度指标关联的智能投放决策方法及系统 | |
| CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
| CN115098644A (zh) | 图像与文本匹配方法、装置、电子设备及存储介质 | |
| CN110782349A (zh) | 一种模型训练方法和系统 | |
| CN113609274A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
| CN111680165A (zh) | 信息匹配方法、装置、可读存储介质和电子设备 | |
| CN111738762A (zh) | 不良资产回收价的确定方法、装置、设备和存储介质 | |
| CN113987351B (zh) | 基于人工智能的智能推荐方法、装置、电子设备及介质 | |
| CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
| CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
| CN112163098A (zh) | 一种知识图谱的创建方法、装置、存储介质和服务器 | |
| CN113592605B (zh) | 基于相似产品的产品推荐方法、装置、设备及存储介质 | |
| CN117094391B (zh) | 因果事件对处理方法、装置、计算机设备以及存储介质 | |
| CN113742495A (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
| CN114912818B (zh) | 资产指标分析方法、装置、设备及存储介质 | |
| CN114817526B (zh) | 文本分类方法及装置、存储介质、终端 | |
| CN114092057A (zh) | 一种项目模型的构建方法、装置、终端设备和存储介质 | |
| CN117011577A (zh) | 图像分类方法、装置、计算机设备和存储介质 | |
| CN110033184A (zh) | 一种基于元数据的业务流程推荐方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |