CN117892821A - 问题回答模型的评测方法及相关装置、设备、平台和介质 - Google Patents
问题回答模型的评测方法及相关装置、设备、平台和介质 Download PDFInfo
- Publication number
- CN117892821A CN117892821A CN202311634309.1A CN202311634309A CN117892821A CN 117892821 A CN117892821 A CN 117892821A CN 202311634309 A CN202311634309 A CN 202311634309A CN 117892821 A CN117892821 A CN 117892821A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- model
- evaluation
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种问题回答模型的评测方法及相关装置、设备、平台和介质,其中,问题回答模型的评测方法包括:获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束;基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果;其中,问答数据包括各轮问答。上述方案,能够提升问题回答模型的评测效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种问题回答模型的评测方法及相关装置、设备、平台和介质。
背景技术
近年来,随着人工智能技术的快速发展,通过问题回答模型来对用户问题进行自动回答并与用户进行交互,已经受到越来越多关注。。
目前,问题回答模型的传统评估方式都完全依赖于人工,即让问题回答模型所涉领域的专业人员进行肉眼评测。这种方法存在费时费力的问题,从而影响问题回答模型的评测效率。有鉴于此,如何提升问题回答模型的评测效率,成为亟待解决的问题。
发明内容
本申请提供一种型问题回答模型的评测方法及相关装置、设备、平台和介质。
本申请第一方面提供了一种问题回答模型的评测方法,包括:获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束;基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果;其中,问答数据包括各轮问答。
因此,获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题,基于此再获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束,从而基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果,且问答数据包括各轮问题,故一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。
其中,在基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果之前,方法还包括:获取问题回答模型的目标评测标准;基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果,包括:基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果。
因此,在基于回答检测模型对问答数据进行检测之前,先获取问题回答模型的目标评测标准,再基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果,从而能够按照与问题回答模型适配的评测标准进行问答数据进行检测,进而能够有助于提升对问题回答模型的评测准确性。
其中,目标评测标准包含从不同维度评测问题回答模型的若干一级条目,一级条目下包含至少一个二级条目,基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果,包括:获取回答检测模型分别按照各个二级条目对问答数据的二级维度分值;基于相同一级条目下各个二级条目的二级维度分值进行融合,得到对应一级条目下的一级维度分值;基于若干一级条目下的一级维度分值,得到问题回答模型的评测结果。
因此,目标评测标准包含从不同维度评测问题回答模型的若干一级条目,一级条目下包含至少一个二级条目,从而在基于回答检测模型按照目标评测标准对问答数据进行检测时,先获取回答检测模型分别按照各个二级条目对问答数据的二级维度分值,再基于相同一级条目下各个二级条目的二级维度分值进行融合,得到对应一级条目下的一级维度分值,基于此即可基于若干一级条目下的一级维度分值,得到问题回答模型的评测结果,进而能够按照条目级别由低到高的顺序检测并汇总评测分值,有助于提升对问题回答模型评测的全面性和准确性。
其中,获取问题回答模型的目标评测标准,包括:基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准;在至少一个方面对第二评测标准进行分析,得到分析结果;响应于分析结果满足预设标准条件,选择第二评测标准,作为新的第一评测标准,并对新的第一评测标准,重新执行基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止;选择最新第一评测标准,作为目标评测标准。
因此,基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准,在至少一个方面对第二评测标准进行分析,得到分析结果,响应于分析结果满足预设标准条件,选择第二评测标准,作为新的第一评测标准,并对新的第一评测标准,重新执行基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止,故能够综合目标人员的专业知识和在至少一个方面对修改后评测标准的分析,经过多轮循环得到目标评测标准,有助于尽可能地提升目标评测标准的客观性、全面性和准确性。
其中,至少一个方面包括信度,在至少一个方面对第二评测标准进行分析,得到分析结果,包括:对于第二评测标准中各个条目,获取表征对应条目自身一致性的第一信度,并获取表征删除对应条目之后一致性的第二信度,以及基于第一信度和第二信度,得到对应条目的信度值;基于各个条目的信度值,得到第二评测标准的分析结果。
因此,在至少一个方面包括信度的情况下,对于第二评测标准中各个条目,获取表征对应条目自身一致性的第一信度,并获取表征删除对应条目之后一致性的信度,以及基于第一信度和第二信度,得到对应条目的信度值,从而基于各个条目的信度值,得到第二评测标准的分析结果,故能够在至少一个方面包括信度的情况下,在信度方面从两个维度分析第二评测标准的信度值,有助于提升信度分析的全面性和准确性。
其中,至少一个方面包括效度,在至少一个方面对第二评测标准进行分析,得到分析结果,包括:对于第二评测标准中各个条目,获取表征对应条目内容效度的第一效度,并获取表征对应条目结构效度的第二效度,以及基于第一效度和第二效度,得到对应条目的效度值;基于各个条目的效度值,得到第二评测标准的分析结果。
因此,在至少一个方面包括效度的情况下,对于第二评测标准中各个条目,获取表征对应条目内容效度的第一效度,并获取表征对应条目结构效度的第二效度,以及基于第一效度和第二效度,得到对应条目的效度值,从而基于各个条目的效度值,得到第二评测标准的分析结果,故能够在至少一个方面包括效度的情况下,在效度方面从内容和结构两个维度分析第二评测标准的效度值,有助于提升效度分析的全面性和准确性。
本申请第二方面提供了一种问题回答模型的评测装置,包括:获取模块、问答模块和检测模块,获取模块,用于获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;问答模块,用于获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束;检测模块,用于基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果;其中,问答数据包括各轮问答。
本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的问题回答模型的评测方法。
本申请第四方面提供了一种问题回答模型的评测平台,包括彼此之间通信连接的第一设备和第二设备,第一设备运行有交互模拟模型和回答检测模型,第二设备为上述第三方面中的电子设备,且第一设备和第二设备还与运行有问题回答模型的第三设备通信连接。
本申请第五方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中问题回答模型的评测方法。
上述方案,获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题,基于此再获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束,从而基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果,且问答数据包括各轮问题,故一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。
附图说明
图1是本申请问题回答模型的评测方法一实施例的流程示意图;
图2a是获取目标评测标准一实施例的流程示意图;
图2b是获取目标评测标准一实施例的过程示意图;
图3是本申请问题回答模型的评测装置一实施例的框架示意图;
图4是本申请电子设备一实施例的框架示意图;
图5是本申请问题回答模型的评测平台一实施例的框架示意图;
图6是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请问题回答模型的评测方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题。
在一个实施场景中,以医疗行业为例,可以采用大量医疗文本(如,医疗书籍、医疗对话等)对大规模语言模型(如,LLAMA、GPT等)进行预训练,得到医疗大模型,作为问题回答模型。
在另一个实施场景中,仍以医疗行业为例,区别于前述实施方式,为了进一步提升问题回答模型在医疗对话时稳定性和准确性,也可以结合样本医疗问答和回答检测模型一同训练得到医疗大模型,作为问题回答模型。具体来说,可以获取回答检测模型,并获取第一样本医疗问题;基于医疗大模型对第一样本医疗问题进行分析,得到第一样本医疗问题的多个第一样本医疗回答;基于回答检测模型分别对各个第一样本医疗回答进行检测,得到表征第一样本医疗回答优劣程度的第一检测分值;基于由第一检测分值所确定的学习率,调整医疗大模型的网络参数。
在一个具体的实施场景中,基于由第一检测分值所确定的学习率,调整医疗大模型的网络参数,包括:基于各个第一样本医疗回答的第一检测分值进行归一化,得到对应第一样本医疗回答的归一化分值;基于各个第一样本医疗回答的归一化分值,从多个第一样本医疗回答中筛选出第一样本医疗问题的样本优秀医疗回答;基于由样本优秀医疗回答的归一化分值所确定的学习率,调整医疗大模型的网络参数。
在一个具体的实施场景中,基于由样本优秀医疗回答的归一化分值所确定的学习率,调整医疗大模型的网络参数,包括:选择样本优秀医疗回答的归一化分值作为权重;基于权重获取医疗大模型对样本优秀医疗回答进行生成式学习的学习率;基于学习率,调整医疗大模型的网络参数。
在一个具体的实施场景中,在基于回答检测模型分别对各个第一样本医疗回答进行检测,得到表征第一样本医疗回答优劣程序的第一检测分值之前,方法还包括:获取第二样本医疗问题和第二样本医疗问题的多个第二样本医疗回答;其中,第二样本医疗问题标注有多个第二样本医疗回答关于优劣程度的样本排序信息;将第二样本医疗回答和回答检测提示输入至回答检测模型,得到表征第二样本医疗回答优劣程度的第二检测分值;其中,回答检测提示用于指示回答检测模型检测第二样本医疗回答的优劣程度;基于样本排序信息和第二检测分值,调整回答检测模型的网络参数。
在一个具体的实施场景中,将第二样本医疗回答和回答检测提示输入至回答检测模型,得到表征第二样本医疗回答优劣程度的第二检测分值,包括:将第二样本医疗回答和回答检测提示输入至回答检测模型,得到回答检测模型输出的第一概率和第二概率;其中,第一概率表征第二样本医疗回答检测为优秀的可能性,第二概率表征第二样本医疗回答检测为拙劣的可能性;基于第一概率和第二概率,得到第二样本医疗回答的第二检测分值。
在一个具体的实施场景中,基于样本排序信息和第二检测分值,调整回答检测模型的网络参数,包括:基于样本排序信息,将多个第二样本医疗回答划分至正例回答集合和负例回答集合;基于正例回答集合中第二样本医疗回答的第二检测分值,得到第一子损失,并基于负例回答集合中第二样本医疗回答的第二检测分值,得到第二子损失;基于第一子损失和第二子损失,调整回答检测模型的网络参数;其中,第一子损失负相关于正例回答集合中第二样本医疗回答的第二检测分值,第二子损失正相关于负例回答集合中第二样本医疗回答的第二检测分值。
在一个具体的实施场景中,在基于第一子损失和第二子损失,调整回答检测模型的网络参数之前,方法还包括:基于样本排序信息,选择两个第二样本医疗回答分别作为第二样本医疗问题的第一正例医疗回答和第一负例医疗回答;将第一正例医疗回答的第二检测分值,作为正例回答检测分值,并将第一负例医疗回答的第二检测分值,作为负例回答检测分值;基于负例回答检测分值与正例回答检测分值的分值之差,得到第一损失;其中,分值之差与第一损失正相关;基于第一子损失和第二子损失,调整回答检测模型的网络参数,包括:获取第一子损失与第二子损失之和,得到第二损失,并基于第一损失和第二损失,调整回答检测模型的网络参数。
在一个具体的实施场景中,获取第二样本医疗问题和第二样本医疗问题的多个第二样本医疗回答,包括:基于大语言模型对第二样本医疗问题进行分析,得到多个第二样本医疗回答;获取对多个第二样本医疗回答关于优劣程度的标注排序信息;基于标注排序信息,选择两个第二样本医疗回答分别作为第二样本医疗问题的第二正例医疗回答和第二负例医疗回答;基于大语言模型对第二正例医疗回答和第二负例医疗回答进行优劣校验,得到表征第二正例医疗回答和第二负例医疗回答孰优孰劣的校验结果;基于校验结果,确定是否提示修改标注排序信息。
在一个具体的实施场景中,,基于校验结果,确定是否提示修改标注排序信息,至少包括:响应于校验结果与标注排序信息不符,提示修改标注排序信息。
需要说明的是,前述问题回答模型主要用于对问题进行回答,与之对应的,交互模拟模型主要用于向问题回答模型进行提问,从而问题回答模型与交互模拟模型可以分别模拟交互双方进行对话,如可以可分别模拟医生、患者进行交互对话。当然,也可以不局限于医疗行业,其他行业可以以此类推,得到适用于对应行业的问题回答模型、交互模拟模型和回答检测模型,在此不再一一举例。交互模拟模型也可以由大规模语言模型构建得到。示例性地,交互模拟模型可以包括但不限于LLAMA、GPT等,在此不做限定。此外,在采用大规模语言模型构建交互模拟模型的情况下,其训练流程,可以参照前述问题回答模型,在此不再赘述。
在一个实施场景中,评测人员可以为主持/负责/兼职问题回答模型评测的工作人员。示例性地,评测人员可以是问题回答模型部署之前负责验收问题回答模型的工作人员;评测人员也可以是负责部署问题回答模型的工作人员;或者,评测人员也可以是问题回答模型的研发人员,在此不做限定。此外,本公开实施例中,对问题回答模型的部署方式不做限定,如可以包括但不限于:部署在云端的SaaS(Software as a Service,软件即服务)模式,部署在本地的模式。在此对问题回答模型的部署方式不做限定。
在一个实施场景中,在首轮交互时,可以提示评测人员输入问题。示例性地,可以以文字、语音、图片等形式提示“请输入首轮问题,以开启评测”。当然,也可以以其他形式进行提示,如灯光等,在此不做限定。
在一个实施场景中,首轮交互时的问题,可以由评测人员手动输入。具体地,评测人员可以以文字、语音等形式手动输入问题。示例性地,以医疗行业为例,评测人员可以手动输入包括但不限于以下问题:“感冒可以服用阿司匹林吗”等,在此对问题的具体内容不做限定。
在一个实施场景中,区别于前述方式,作为另一种可能的实施方式,首轮交互时的问题,也可以由评测人员在若干候选问题中选择得到。具体地,在首轮交互时,可以展示若干候选问题,以医疗行业为例,包括但不限于:“感冒可以服用阿司匹林吗”、“野外骨折后可以采取什么急救措施”等,在此不做限定。在此基础上,评测人员可以在此其中选择任一候选问题作为问题。
需要说明的是,相较于首轮交互直接由交互模拟模型与问题回答模型进行交互的实施方式,首轮交互时由评测人员输入问题,能够尽可能地提高对话质量,有助于提升对问题回答模型的评测精度。
步骤S12:获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束。
在一个实施场景中,在得到首轮交互的问题之后,即可将问题输入至问题回答模型,得到问题回答模型回答该问题而输出的回答。示例性地,仍以前述医疗行业中问题“感冒可以服用阿司匹林吗”为例,问题回答模型的回答可以包括但不限于:“一般情况下是可以的,不过需要根据个体情况具体斟酌用药”、“原则上是可以的,不过阿司匹林有一些服用禁忌”等,在此不做限定。
在一个实施场景中,在得到问题回答模型输出的回答之后,可以将回答摄入至交互模拟模型,得到交互模拟模型模拟用户对回答的进一步回应,为了便于区分,可以称之为新一轮的问题。示例性地,仍以前述医疗行业中问题“感冒可以服用阿司匹林吗”为例,若问题回答模型的回答为“一般情况下是可以的,不过需要根据个体情况具体斟酌用药”,则交互模拟模型对此回答进一步回应可以输出新一轮的问题“那么有哪些服用禁忌呢”。当然,上述举例仅仅是实际应用过程中一种可能的实施方式,并不因此而限定新一轮的问题其具体内容。
在一个实施场景中,在得到新一轮的问题之后,即可将新一轮的问题再次输入至问题回答模型,以得到对此的回答,并将对此的回答再次输入至交互模拟模型,以再次得到新一轮的问题,如此往复以此类推,直至交互模拟模型确定已经询问清楚,即可结束对话。至此,即可积累得到在此过程中的多轮问答。仍以前述医疗行业中问题“感冒可以服用阿司匹林吗”为例,多轮医疗问答可以包括:首轮医疗问答“感冒可以服用阿司匹林吗”—“一般情况下是可以的,不过需要根据个体情况具体斟酌用药”、第二轮医疗问答“那么有哪些服用禁忌呢”—“如您对于非甾体类抗炎药物出现明显的过敏反应,是不可以服用阿司匹林的”、第三轮医疗问答“什么是非甾体类抗炎药物”—“非甾体类抗炎药物是一类不含有甾体结构的抗炎药,阿司匹林、吲哚美辛、萘普生、萘普酮、双氯芬酸、布洛芬、尼美舒利、罗非昔布、塞来昔布等常见药物均属于此类药物”、第四轮回答“好的,我明白了,那还有其他禁忌吗”—“还有比如患有哮喘或者血管神经性水肿人群也不可服用阿司匹林,怀孕和哺乳期的女性也不可复用。此外,如您目前在服用糖皮质激素、胰岛素等药物,也建议禁服阿司匹林”。当然,上述举例仅仅是实际应用过程中一种可能的实施方式,并不因此而限定多轮问答的具体内容。
步骤S13:基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果;其中,问答数据包括各轮问答。
在一个实施场景中,回答检测模型可以用于评价问题回答模型对问题所给出的回答,并输出回答的检测分值。需要说明的是,检测分值越高,问题回答模型对问题所做出的回答越好,反之,检测分值越低,问题回答模型对问题所做出的回答越差。具体来说,回答检测模型可以采用样本问题多个样本回答训练得到,且样本问题可以标注有多个样本回答关于优劣程度的样本排序信息,以此训练,能够迫使回答检测模型学习到问题回答模型对问题进行回答的优劣程度。在此基础上,可以综合问答数据中各个回答的检测分值,得到问题回答模型在此过程中检测分值的平均分值,进而可以根据平均分值,得到问题回答模型的分析结果。示例性地,可以预先设定若干分值区间,以百分制为例,可以设定0~30分、30分~60分、60分~80分、80分~90分、90分~100分共计四个分值区间,0~30分表示性能很差,30分~60分表示性能较差,60分~80分表示性能一般,80分~90分表示性能较好,90分~100分表示性能优秀,进而可以根据平均分值所在的分值区间,得到至少包含问题回答模型性能的分析结果。示例性地,在统计得到平均分值为92分时,可以确定分析结果至少包括问题回答模型性能优秀。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,作为另一种可能的实施方式,也可以在基于回答检测模型对问答数据进行检测之前,先获取问题回答模型的目标评测标准。需要说明的是,以医疗行业为例,问题回答模型的目标评测标准可以包括但不限于:由医学机构为问题回答模型所制定的量表、基于已有量表进一步研判所确定的量表,在此不做限定。在此基础上,可以基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果。特别地,根据已有评测标准进一步研判,以确定适用于本公开实施例中问题回答模型的目标评测标准,其具体过程可以参阅下述公开实施例中相关描述,在此暂不赘述。上述方式,能够按照与问题回答模型适配的评测标准进行问答数据进行检测,进而能够有助于提升对问题回答模型的评测准确性。
在一个具体的实施场景中,目标评测标准包含从不同维度评测问题回答模型的若干一级条目,一级条目下包含至少一个二级条目。示例性地,以医疗行业为例,若干一级条目可以包括但不限于:问诊技巧、人文关怀、临床综合诊疗能力、整体临床胜任能力等,在此不做限定。更为具体地,问诊技术可以包括但不限于以下二级条目:(1)针对患者的主诉,准确进行疾病相关追问,包括既往史、用药史、合并症等,(2)以开放的问题询问患者,适当鼓励患者自己陈述,(3)引导患者以获取正确、充分的疾病相关信息,(4)采用患者易懂的词语,避免医学术语,(5)向患者解释回复就诊、治疗的依据或目的,(6)避免对患者提供医学有害信息,例如不经证实的保健信息等,(7)对患者发生的医学紧急情况进行有效的判断和适当的反应,例如当患者血糖低于3.2mmol/L时及时告知低血糖风险和紧急处理方案,(8)对于需要鉴别诊断的疾病,会主动询问并鼓励患者陈述足够帮助鉴别疾病的信息,(9)问诊条理清晰,重点突出。人文关怀可以包括但不限于以下二级条目:(1)问诊沟通时表现出尊重、敏感和同理心;(2)有效的患者对话技巧包括:开始谈话、探讨问题、理解患者的观点、组织讨论、建立与患者的信任关系、促进患者的参与、解释、计划和结束讨论;(3)对患者在对话中的情绪化表现进行合理应对,例如适当进行情绪安抚;(4)在医疗决策中重视患者的个人意愿;(5)避免表达对特定人群有偏见的观点;(6)在向患者解释问题时保持耐心;(7)使用合适得体的语言与患者进行沟通;(8)非必要时避免询问患者的隐私;(9)合理处理对话中患者的非医学诉求。临床综合诊疗能力可以包括但不限于以下二级条目:(1)识别出患者提供信息中内容的主次性,并合理进行应对,例如患者提供的主诉中,对判断病情有帮助的信息应重点关注和追问;对判断病情无关的信息不应过多关注和追问,若患者对此较为关注,需提供合理的解释;(2)识别出患者所提供的信息是否可信,并在必要时做出进一步验证,例如患者陈述自己感觉发烧了,但并没有进行体温测量;(3)结合患者提供的信息得出合理的初步诊断和鉴别诊断;(4)提出适当的诊断方案,即诊断方案应包含必要的检查手段且不包含无关的检查手段;(5)正确地向患者解释提出诊断方案的原因;(6)正确地向患者解释疾病确诊依据和排除依据;(7)考虑患者的病情和个人意愿,提出最佳的治疗方案;(8)正确地向患者解释提出治疗方案的原因;(9)对患者就某些重要医学关注点做出必要提醒和建议,例如药物配伍禁忌的提醒。对于整体临床胜任能力可以包括但不限于以下二级条目:(1)不满意;(2)令人满意;(3)非常出色。当然,上述目标评测标准的具体设置,仅仅是实际应用过程中一种可能的设置方式,并不因此而限定目标评测标准的具体内容。
在一个具体的实施场景中,在得到包含一级条目及其下属二级条目的目标评测标准之后,可以获取回答检测模型分别按照各个二级条目对问答数据的二级维度分值,基于此再基于相同一级条目下各个二级条目的二级维度分值进行融合(如,平均、加权),得到对应一级条目下的一级维度分值,从而可以基于若干一级条目下的一级维度分值,得到问题回答模型的评测结果。示例性地,对于每一一级条目,可以根据其一级维度分值,分析得到问题回答模型在该一级条目下的评测性能,进而能够综合各个一级条目的评测性能,得到包括问题回答模型在各个一级条目下评测性能的分析结果。上述方式,能够按照条目级别由低到高的顺序检测并汇总评测分值,有助于提升对问题回答模型评测的全面性和准确性。
上述方案,获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题,基于此再获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束,从而基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果,且问答数据包括各轮问题,故一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。
请参阅图2a,图2a是获取目标评测标准一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S21:基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准。
具体地,可以先获取初始评测标准作为第一评测标准。需要说明的是,初始评测标准可以包括一级条目及其下属的至少一个二级条目,具体可以参阅前述公开实施例中相关描述,在此不再赘述。与此同时,为了尽可能地提升对第一评测标准进行函询的客观性,可以组建多个目标人员(如,一定数量的医疗专家),并将第一评测标准分别发送至各个目标人员,由各个目标人员各自独立进行答复回函,以从各个目标人员处分别获取函询结果。示例性地,以采用三轮德尔菲询问法为例:
第一轮函询:可以对各条目的重要性给予评分、条目定义和内容给予指导,目标人员可以根据填表说明完成表格内容。问卷回收后,将函询结果进行汇总,并可以经焦点小组(也由一定数量的目标人员组成)讨论后,确定第二评测标准。在函询结果中,若目标人员对问卷内容熟悉程度为“较不熟悉”、“很不熟悉”,或“一般熟悉”,则在下一轮取消对该目标人员的函询;对条目重要性评分为“不重要”、专家建议增加的、质疑的条目,经焦点小组讨论后决定修改或删除。
第二轮函询:函询的目标人员是第一轮回复且在问卷内容熟悉程度自评中选择“很熟悉”、“较熟悉”的目标人员,且主要对第二轮函询提出的条目重要性评分为“不重要”、专家建议增加的、质疑的条目,经焦点小组讨论后确定修改。
第三轮函询:与第二轮函询类似。
需要说明的是,上述举例仅仅是实际应用过程中一种可能的函询方式,并不因此而限定其他实施方式。示例性地,如还可以采用四轮、五轮等其他轮数的函询,在此不做限定。
步骤S22:在至少一个方面对第二评测标准进行分析,得到分析结果。
具体地,在每轮函询结束,得到函询结果之后,可以在至少一个方面对第二评测标准进行分析,得到分析结果,以便后续根据分析结果来确定是否将第二评测标准作为新的第一评测标准,从而开启新一轮函询。
在一个实施场景中,至少一个方面包括信度,则对于第二评测标准中每个条目而言,可以获取表征对应条目自身一致性的第一信度,并获取表征删除对应条目之后一致性的第二信度,以及基于第一信度和第二信度,得到对应条目的信度值,从而可以基于各个条目的信度值,得到第二评测标准的分析结果,即在信度方面的分析结果。上述方式,能够在至少一个方面包括信度的情况下,在信度方面从两个维度分析第二评测标准的信度值,有助于提升信度分析的全面性和准确性。
在一个具体的实施场景中,可以采用包括但不限于克隆巴赫系数等指标在信度方面获取第二评测标准的分析结果。示例性地,以采用克隆巴赫系数在信度方面进行分析情况下,可以预先设置若干阈值,以结合信度值和若干阈值来对第二评测标准在信度方面进行分级。例如,可以预先设置如下阈值:0.8、0.7、0.7,若信度值高于0.8,则可以确定在信度方面,第二评测标准的分析结果包括信度非常好,若信度值在0.7至0.8之间,则可以确定在信度方面,第二评测标准的分析结果包括信度可以接受,若信度值在0.6至0.7之间,则可以确定在信度方面,第二评测标准的分析结果包括需修订但仍不失其价值,若信度值在0.6以下,则可以确定在信度方面,第二评测标准的分析结果包括需要重新设计题项。当然,上述举例仅仅是实际应用过程中一种可能的实施情况,并不因此而限定其他情况。
在一个具体的实施场景中,仍以医疗行业为例,评测标准包含:“问诊技巧”、“人文关怀”、“临床综合诊疗能力”、“整体临床胜任能力”四个一级条目为例,其各自下属的二级条目可以参阅前述相关描述,在此不再赘述。请结合参阅表1,表1是采用克隆巴赫系数度量第二评测标准的信度值一实施例的示意表。
表1采用克隆巴赫系数度量第二评测标准的信度值一实施例的示意表
由此可见,第二评测标准中每个条目的第一信度均大于0.8,且删除某一条目之后的第二信度均未上升,表明第二评测标准的信度非常好。当然,表1所示仅仅是采用克隆巴赫系数度量信度值的一种可能实施方式,并不因此而限定采用其他指标度量信度值时的具体情况,在此不做限定。
在另一个实施场景中,区别于至少一个方面包括信度的情况,作为另一种可能的实施方式,至少一个方面还可以包括效度。在此情况下,对于第二评测标准中各个条目,可以获取表征对应条目内容效度的第一效度,并获取表征对应条目结构效度的第二效度,以及基于第一效度和第二效度,得到对应条目的效度值,从而可以基于各个条目的效度值,得到第二评测标准的分析结果。需要说明的是,效度主要分析评测标准的准确性、有效性,分析评测标准是否真实有效地测量期望测量的变量。此外,内容效度分析是指使用文字叙述形式对评测标准的合理性、科学性进行说明,结构效度分析是指测量题与测量变量之间的对应关系。上述方式,能够在至少一个方面包括信度的情况下,在信度方面从两个维度分析第二评测标准的信度值,有助于提升信度分析的全面性和准确性。
在一个具体的实施场景中,对于内容效度而言,可以根据评测标准是否有着严谨的参考依据,评测标准是否设计有参考依据并得到专家认可。当然,也可以从其他角度进行分析,在此不做限定。
在一个具体的实施场景中,对于结构效度而言,可以采用KMO检验统计和Bartlett’s球状检验。对于前者,其是用于比较变量间简单相关系数和偏相关系数的指标。与前述信度类似地,可以预先设置若干阈值,从而可以结合此值和若干阈值,来对第二评测标准在结构效度方面进行分级。仍以若干阈值包括0.8、0.7、0.6为例,若此值高于0.8,则可以确定在结构效度方面,第二评测标准的分析结果包括效度高,说明第二评测标准非常合适提取信息,若此值介于0.7至0.8之间,则可以确定在结构效度方面,第二评测标准的分析结果包括效度较好,若此值介于0.6至0.7之间,则可以确定在结构效度方面,第二评测标准的分析结果包括可以接受,若此值低于0.6,则可以确定在结构效度方面,第二评测标准的分析结果包括效度不佳。对于后者,其用于检验相关阵中各变量间相关性,是否为单位阵,即检验各个变量是否相互独立,示例性地,若其对应P值低于某一阈值(如,0.05),可以确定通过巴特球形检验。
在一个具体的实施场景中,仍以医疗行业中评测标准包含:“问诊技巧”、“人文关怀”、“临床综合诊疗能力”、“整体临床胜任能力”四个一级条目为例,其各自下属的二级条目可以参阅前述相关描述,在此不再赘述。请结合参阅表2,表2采用KMO和Bartlett’s度量结构效度一实施例的示意表。
表2采用KMO和Bartlett’s度量结构效度一实施例的示意表
由此可见,KMO=0.829,Bartlett’s球状检验近似卡方值为2343.197(df=325,p=0.000),即可以确定在结构效度方面,第二评测标准的分析结果包括效度高。当然,表2所示仅仅是采用KMO和Bartlett’s度量结构效度的一种可能实施方式,并不因此而限定采用其他指标度量结构效度时的具体情况,在此不做限定。
步骤S23:响应于分析结果满足预设标准条件,选择第二评测标准,作为新的第一评测标准,并对新的第一评测标准,重新执行基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止。
具体地,预设标准条件可以根据实际应用需要进行设置。示例性地,在对评测标准要求较好的情况下,预设标准条件可以包括:分析结果需满足最高指标(如信度值高于0.8、效度值高于0.8);或者,在对评测标准要求相对宽松的情况下,预设标准条件可以包括:分析结果需满足可以接受指标(如信度值高于0.7即可,效度值高于0.6即可)。其他情况可以以此类推,在此不再一一举例。此外,函询结束条件可以设置为包括:函询次数不低于预设次数阈值(如,3次、4次等)。
步骤S24:选择最新第一评测标准,作为目标评测标准。
具体地,在经过多轮函询、修改之后,即可将最新第一评测标准,作为目标评测标准,以用于对问题回答模型的评测过程中,具体可以参阅前述公开实施例中相关描述,在此不再赘述。特别地,如图2b所示,以医疗行业中将本国版Mini-CEX作为第一评测标准为例,可以先经过文献研究及焦点小组讨论,初始“改良基于LLM”的Mini-CEX,再经过三轮德尔菲循环问询调整“改良基于LLM”的Mini-CEX,再定义“改良基于LLM”的Mini-CEX,最终即可确定“改良基于LLM”的Mini-CEX,作为目标评测标准。
上述方案,基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准,在至少一个方面对第二评测标准进行分析,得到分析结果,响应于分析结果满足预设标准条件,选择第二评测标准,作为新的第一评测标准,并对新的第一评测标准,重新执行基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止,故能够综合目标人员的专业知识和在至少一个方面对修改后评测标准的分析,经过多轮循环得到目标评测标准,有助于尽可能地提升目标评测标准的客观性、全面性和准确性。
请参阅图3,图3是本申请问题回答模型的评测装置30一实施例的框架示意图。问题回答模型的评测装置30包括:获取模块31、问答模块32和检测模块33,获取模块31,用于获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;问答模块32,用于获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束;检测模块33,用于基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果;其中,问答数据包括各轮问答。
上述方案,问题回答模型的评测装置30获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题,基于此再获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束,从而基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果,且问答数据包括各轮问题,故一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。
在一些公开实施例中,问题回答模型的评测装置30还包括标准获取模块,用于获取问题回答模型的目标评测标准;检测模块33具体用于基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果。
在一些公开实施例中,目标评测标准包含从不同维度评测问题回答模型的若干一级条目,一级条目下包含至少一个二级条目,检测模块33包括分值获取子模块,用于获取回答检测模型分别按照各个二级条目对问答数据的二级维度分值;检测模块33包括分值融合子模块,用于基于相同一级条目下各个二级条目的二级维度分值进行融合,得到对应一级条目下的一级维度分值;检测模块33包括结果获取子模块,用于基于若干一级条目下的一级维度分值,得到问题回答模型的评测结果。
在一些公开实施例中,标准获取模块包括修改子模块,用于基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准;标准获取模块包括分析子模块,用于在至少一个方面对第二评测标准进行分析,得到分析结果;标准获取模块包括循环子模块,用于响应于分析结果满足预设标准条件,选择第二评测标准,作为新的第一评测标准,并对新的第一评测标准,重新执行基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止;标准获取模块包括选择子模块,用于选择最新第一评测标准,作为目标评测标准。
在一些公开实施例中,至少一个方面包括信度,分析子模块包括信息分析单元,用于对于第二评测标准中各个条目,获取表征对应条目自身一致性的第一信度,并获取表征删除对应条目之后一致性的第二信度,以及基于第一信度和第二信度,得到对应条目的信度值;分析子模块包括第一确定单元,用于基于各个条目的信度值,得到第二评测标准的分析结果。
在一些公开实施例中,至少一个方面包括效度,分析子模块包括效度分析单元,用于对于第二评测标准中各个条目,获取表征对应条目内容效度的第一效度,并获取表征对应条目结构效度的第二效度,以及基于第一效度和第二效度,得到对应条目的效度值;分析子模块包括第二确定单元,用于基于各个条目的效度值,得到第二评测标准的分析结果。
请参阅图4,图4是本申请电子设备40一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42,处理器42用于执行存储器41中存储的程序指令,以实现上述任一问题回答模型的评测方法实施例的步骤。在一个具体的实施场景中,电子设备40可以包括但不限于:微型计算机、服务器,此外,电子设备40还可以包括智能手机、平板电脑等移动设备,在此不做限定。
具体而言,处理器42用于控制其自身以及存储器41以实现上述任一问题回答模型的评测方法实施例的步骤。处理器42还可以称为CPU(Central Processing Unit,中央处理单元)。处理器42可能是一种集成电路芯片,具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器42可以由集成电路芯片共同实现。
上述方案,电子设备40一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。
请参阅图5,图5是本申请问题回答模型的评测平台50一实施例的框架示意图。问题回答模型的评测平台50包括彼此之间通信连接的第一设备51和第二设备52,第一设备51运行有交互模拟模型和回答检测模型,第二设备52为前述电子设备公开实施例中的电子设备,且第一设备51和第二设备52还与运行有问题回答模型的第三设备53通信连接。
上述方案,问题回答模型的评测平台50一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。
请参阅图6,图6为本申请计算机可读存储介质60一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601,程序指令601用于实现上述任一问题回答模型的评测方法实施例的步骤。
上述方案,计算机可读存储介质60一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
Claims (10)
1.一种问题回答模型的评测方法,其特征在于,包括:
获取用于模拟用户与所述问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户输入的问题;
获取所述问题回答模型响应于所述问题而输出的回答,并获取所述交互模拟模型响应于所述回答而输出新一轮的问题,以使所述问题回答模型响应于所述新一轮的问题与所述交互模拟模型开始新一轮的交互,直至交互结束;
基于回答检测模型对问答数据进行检测,得到所述问题回答模型的评测结果;其中,所述问答数据包括各轮问答。
2.根据权利要求1所述的方法,其特征在于,在所述基于回答检测模型对问答数据进行检测,得到所述问题回答模型的评测结果之前,所述方法还包括:
获取问题回答模型的目标评测标准;
所述基于回答检测模型对问答数据进行检测,得到所述问题回答模型的评测结果,包括:
基于所述回答检测模型按照所述目标评测标准对所述问答数据进行检测,得到所述问题回答模型的评测结果。
3.根据权利要求2所述的方法,其特征在于,所述目标评测标准包含从不同维度评测所述问题回答模型的若干一级条目,所述一级条目下包含至少一个二级条目,所述基于所述回答检测模型按照所述目标评测标准对所述问答数据进行检测,得到所述问题回答模型的评测结果,包括:
获取所述回答检测模型分别按照各个所述二级条目对所述问答数据的二级维度分值;
基于相同所述一级条目下各个所述二级条目的二级维度分值进行融合,得到对应所述一级条目下的一级维度分值;
基于所述若干一级条目下的一级维度分值,得到所述问题回答模型的评测结果。
4.根据权利要求2所述的方法,其特征在于,所述获取问题回答模型的目标评测标准,包括:
基于由目标人员对第一评测标准的函询结果,对所述第一评测标准进行修改,得到第二评测标准;
在至少一个方面对所述第二评测标准进行分析,得到分析结果;
响应于所述分析结果满足预设标准条件,选择所述第二评测标准,作为新的第一评测标准,并对所述新的第一评测标准,重新执行所述基于由目标人员对第一评测标准的函询结果,对所述第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止;
选择最新所述第一评测标准,作为所述目标评测标准。
5.根据权利要求4所述的方法,其特征在于,所述至少一个方面包括信度,所述在至少一个方面对所述第二评测标准进行分析,得到分析结果,包括:
对于所述第二评测标准中各个条目,获取表征对应所述条目自身一致性的第一信度,并获取表征删除对应所述条目之后一致性的第二信度,以及基于所述第一信度和所述第二信度,得到对应所述条目的信度值;
基于各个所述条目的信度值,得到所述第二评测标准的分析结果。
6.根据权利要求4所述的方法,其特征在于,所述至少一个方面包括效度,所述在至少一个方面对所述第二评测标准进行分析,得到分析结果,包括:
对于所述第二评测标准中各个条目,获取表征对应所述条目内容效度的第一效度,并获取表征对应所述条目结构效度的第二效度,以及基于所述第一效度和所述第二效度,得到对应所述条目的效度值;
基于各个所述条目的效度值,得到所述第二评测标准的分析结果。
7.一种问题回答模型的评测装置,其特征在于,包括:
获取模块,用于获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;
问答模块,用于获取所述问题回答模型响应于所述问题而输出的回答,并获取所述交互模拟模型响应于所述回答而输出新一轮的问题,以使所述问题回答模型响应于所述新一轮的问题与所述交互模拟模型开始新一轮的交互,直至交互结束;
检测模块,用于基于回答检测模型对问答数据进行检测,得到所述问题回答模型的评测结果;其中,所述问答数据包括各轮问答。
8.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至6任一项所述的问题回答模型的评测方法。
9.一种问题回答模型的评测平台,其特征在于,包括彼此之间通信连接的第一设备和第二设备,所述第一设备运行有交互模拟模型和回答检测模型,所述第二设备为权利要求8所述的电子设备,且所述第一设备和所述第二设备还与运行有问题回答模型的第三设备通信连接。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至6任一项所述的问题回答模型的评测方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311634309.1A CN117892821A (zh) | 2023-11-30 | 2023-11-30 | 问题回答模型的评测方法及相关装置、设备、平台和介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311634309.1A CN117892821A (zh) | 2023-11-30 | 2023-11-30 | 问题回答模型的评测方法及相关装置、设备、平台和介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117892821A true CN117892821A (zh) | 2024-04-16 |
Family
ID=90645611
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311634309.1A Pending CN117892821A (zh) | 2023-11-30 | 2023-11-30 | 问题回答模型的评测方法及相关装置、设备、平台和介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117892821A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118350459A (zh) * | 2024-05-07 | 2024-07-16 | 西安家育宝智能科技有限公司 | 一种双模型语料库的生成方法 |
-
2023
- 2023-11-30 CN CN202311634309.1A patent/CN117892821A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118350459A (zh) * | 2024-05-07 | 2024-07-16 | 西安家育宝智能科技有限公司 | 一种双模型语料库的生成方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Tulsky et al. | Opening the black box: how do physicians communicate about advance directives? | |
| US8834174B2 (en) | Methods and systems for assessing latent traits using probabilistic scoring | |
| JP7285589B2 (ja) | 対話型健康状態評価方法およびそのシステム | |
| US20170116870A1 (en) | Automatic test personalization | |
| US20250046427A1 (en) | Automated assessment of medical conditions | |
| WO2019000852A1 (en) | AUTOMATIC PATIENT SORTING APPARATUS AND AUTOMATIC SORTING METHOD | |
| Funnell et al. | Age of acquisition for naming and knowing: A new hypothesis | |
| Smith et al. | Triage decision-making skills: a necessity for all nurses | |
| Gallagher et al. | The attitudes of neonatal nurses towards extremely preterm infants | |
| JP7678599B2 (ja) | 認知機能低下を評価するための検査方法及び装置 | |
| CN117407682A (zh) | 医学模型评估方法、装置、电子设备和存储介质 | |
| CN112115240A (zh) | 分类处理方法、装置、服务器和存储介质 | |
| CN115497621A (zh) | 一种老年人认知状况测评系统 | |
| US20160247411A1 (en) | System and method for learning | |
| Talboy et al. | Improving understanding of diagnostic test outcomes | |
| CN117892821A (zh) | 问题回答模型的评测方法及相关装置、设备、平台和介质 | |
| CN111046293B (zh) | 一种根据测评结果推荐内容的方法及其系统 | |
| Oberklaid et al. | Is my child normal?: Milestones and red flags for referral | |
| CN119361123A (zh) | 一种用于儿童的计算机化认知能力测评系统及方法 | |
| Sulistiyono et al. | Evaluating the user-friendliness of a mobile application for outpatient food monitoring: A System Usability Scale (SUS) approach | |
| KR20140105112A (ko) | 통신망을 이용한 언어평가시스템 및 이를 이용한 언어평가방법 | |
| Müller | Self-disclosure in counselling psychology practice: A qualitative study using abbreviated grounded theory techniques | |
| Lee et al. | Cultural competency training: how do we measure outcomes? | |
| CN120744071B (zh) | 一种新生儿重症监护室服务平台 | |
| Recchia | Exploring the influence of resilience on midwives’ and student midwives' career-related decisions: A Constructivist Grounded Theory Study |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |