CN121052382A

CN121052382A - 大模型的评估方法、优化方法、装置、设备及介质

Info

Publication number: CN121052382A
Application number: CN202511295053.5A
Authority: CN
Inventors: 张世西; 赵子恒; 冉昱; 颜璟; 陈艳; 彭睿
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2025-09-10
Filing date: 2025-09-10
Publication date: 2025-12-02

Abstract

本公开提供了大模型的评估方法、大模型的优化方法、装置、电子设备、存储介质、智能体以及程序产品，涉及人工智能技术领域，尤其涉及大模型技术领域、评估分析技术领域以及优化技术领域等。具体实现方案为：获取对话日志，对话日志包括对话内容和中间结果；基于对话内容的对话内容特征，确定评估节点和归属于评估节点的多个评估指标，评估节点用于评估大模型执行的子流程；基于对话日志，对大模型进行评估分析，确定多个评估指标各自的评估结果；以及基于多个评估指标各自的评估结果，确定针对大模型的目标评估结果。

Description

大模型的评估方法、优化方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及大模型技术领域、评估分析技术领域以及优化技术领域等，具体涉及大模型的评估方法、大模型的优化方法、装置、电子设备、存储介质、智能体以及程序产品。

背景技术

随着人工智能技术的不断发展，大模型的应用已越来越广泛。为了保证大模型运行的稳定性、智能性和安全性，大模型的评估成为一个不可或缺的重要环节。但是如何提高评估的能力，成为一个研究重点。

发明内容

本公开提供了一种大模型的评估方法、大模型的优化方法、装置、电子设备、存储介质、智能体以及程序产品。

根据本公开的一方面，提供了一种大模型的评估方法，包括：获取对话日志，其中，上述对话日志包括对话内容和中间结果；基于上述对话内容的对话内容特征，确定评估节点和归属于上述评估节点的多个评估指标，其中，上述评估节点用于评估上述大模型执行的子流程；基于上述对话日志，对上述大模型进行评估分析，确定多个上述评估指标各自的评估结果；以及基于多个上述评估指标各自的评估结果，确定针对上述大模型的目标评估结果。

根据本公开的另一方面，提供了一种大模型的优化方法，包括：在上述大模型的目标评估结果表征上述大模型运行存在异常的情况下，基于上述目标评估结果，确定优化样本；以及利用上述优化样本对上述大模型进行训练，得到优化后的大模型；其中，上述目标评估结果利用如上所述方法确定。

根据本公开的另一方面，提供了一种大模型的评估装置，包括：日志获取模块，用于获取对话日志，其中，上述对话日志包括对话内容和中间结果；评估节点确定模块，用于基于上述对话内容的对话内容特征，确定评估节点和归属于上述评估节点的多个评估指标，其中，上述评估节点用于评估上述大模型执行的子流程；评估分析模块，用于基于上述对话日志，对上述大模型进行评估分析，确定多个上述评估指标各自的评估结果；以及结果确定模块，用于基于多个上述评估指标各自的评估结果，确定针对上述大模型的目标评估结果。

根据本公开的另一方面，提供了一种大模型的优化装置，包括：样本确定模块，用于在上述大模型的目标评估结果表征上述大模型运行存在异常的情况下，基于上述目标评估结果，确定优化样本；以及训练模块，用于利用上述优化样本对上述大模型进行训练，得到优化后的大模型；其中，上述目标评估结果利用如上所述装置确定。

根据本公开的另一方面，提供了一种基于大模型的智能体，包括：输入模块，用于接收输入信息；处理模块，用于基于上述输入模块接收的上述输入信息确定目标任务，基于上述目标任务确定大模型，通过调用上述大模型执行如上所述的方法，得到输出信息；输出模块，用于输出上述处理模块得到的上述输出信息。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用大模型的评估方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的大模型的评估方法的流程图；

图3示意性示出了根据本公开实施例的确定多个评估指标的流程示意图；

图4示意性示出了根据本公开实施例的确定目标信息的示意图；

图5示意性示出了根据本公开实施例的确定评估结果的示意图；

图6示意性示出了根据本公开实施例的大模型的优化方法的流程图；

图7示意性示出了根据本公开实施例的大模型的评估装置的框图；

图8示意性示出了根据本公开实施例的大模型的优化装置的框图；

图9示意性示出了根据本公开实施例的基于大模型的智能体的结构框图；以及

图10示意性示出了根据本公开实施例的适于实现大模型的评估方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在人机交互场景中，利用大模型处理对象通过交互界面输入的问题，涉及需求理解、检索、思考、生成等多个环节，也可以称为多个子流程。在对大模型进行对齐优化过程中，面临很大挑战。因为大模型所执行的子流程多且链路复杂，难以高效定位多维交织的失效根源，如幻觉归因于检索缺失还是生成失控。这种“模糊归因”严重制约大模型能力的靶向提升。

有鉴于此，本公开实施例提供了一种大模型的评估方法，包括：获取对话日志，其中，对话日志包括对话内容和中间结果；基于对话内容的对话内容特征，确定评估节点和归属于评估节点的多个评估指标，其中，评估节点用于评估大模型执行的子流程；基于对话日志，对大模型进行评估分析，确定多个评估指标各自的评估结果；以及基于多个评估指标各自的评估结果，确定针对大模型的目标评估结果。

利用本公开实施例提供的大模型的评估方法，能够对大模型处理流程进行拆解，由此细分至用于评估子流程的评估节点，进而使得评估粒度细。此外，利用中间结果和对话内容对评估节点中的多个评估指标分别进行分析，得到多个评估指标各自的评估结果，由此将评估节点进一步细化至不同维度的多个评估指标，进一步细化评估粒度。另外，在评估分析过程中，利用的参考内容包括中间结果，由此使得评估指标之间解耦，避免耦联导致的部分评估指标无法精准进行缺陷定位，进而使得评估全面且有效。

图1示意性示出了根据本公开实施例的可以应用大模型的评估方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用大模型的评估方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的大模型的评估方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等（仅为示例）。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

需要说明的是，本公开实施例所提供的大模型的评估方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的大模型的评估装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的大模型的评估方法一般也可以由服务器105执行。相应地，本公开实施例所提供的大模型的评估装置一般可以设置于服务器105中。本公开实施例所提供的大模型的评估方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的大模型的评估装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的大模型的评估方法的流程图。

如图2所示，该方法包括操作S210~S240。

在操作S210，获取对话日志。

在操作S220，基于对话内容的对话内容特征，确定评估节点和归属于评估节点的多个评估指标。

在操作S230，基于对话日志，对大模型进行评估分析，确定多个评估指标各自的评估结果。

在操作S240，基于多个评估指标各自的评估结果，确定针对大模型的目标评估结果。

对话日志可以包括对话内容和中间结果。可以是收集表征大模型运行状态的信息得到的日志。对话内容可以包括对象输入的问题和大模型针对问题输出的回复信息。中间结果在大模型得到回复信息过程中得到。

以大模型利用检索增强技术与对象进行交互为例，中间结果可以包括大模型生成的检索词、基于检索词得到的检索结果等。

评估节点可以用于评估大模型处理流程中的子流程。以大模型利用检索增强技术进行交互为例，评估节点可以包括理解评估节点、检索评估节点、思考评估节点和生成评估节点，分别用于对理解子流程、检索子流程、思考子流程、生成子流程等子流程进行评估。

对话内容特征，也可以称为对话画像，主要用于从不同维度刻画和表征对话。例如，对话内容特征可以包括主客观、意图、领域、时效等多个维度的特征信息。

对话内容包括对象A输入的问题“AA歌手的经典歌曲为？”、大模型输出的回复信息“AA歌手的经典歌曲为**、***等”。对象A输入的另一问题“你能播放一首**吗？”，大模型调取音乐播放器播放“**”歌曲。

该对话内容的对话内容特征可以包括：对话为客观答复、意图为聊天交互等对话特征。

针对不同对话内容特征的对话，大模型所执行的多个子流程不同。例如，针对主观聊天式对话内容特征和导航对话内容特征，主观聊天式大模型与导航交互式大模型各自所执行的子流程不相同。对应地，用于评估对应子流程的评估节点也不同。

基于对话内容特征作为参考条件对评估节点进行适应性匹配，由此提高评估环节的匹配精度。

可以为每个评估节点设置不同维度的多个评估指标。以理解评估节点为例，评估指标可以包括表征是否将需求拆解正确的需求拆解评估指标、表征是否正确解析隐含需求的多跳需求理解评估指标等。以检索评估节点为例，评估指标可以包括表征检索结果与问题是否相关的相关评估指标、表征多个检索结果是否冲突的冲突评估指标等。

对应地，评估结果用于表征大模型在该评估节点的针对评估指标的运行表现。例如可以基于需求拆解评估指标的评估结果，确定在理解子流程，大模型是否能够准确进行需求拆解。还例如，可以基于相关评估指标的评估结果，确定在检索子流程，大模型检索到的多个检索结果之间是否存在冲突。

可选地，大模型可以包括大语言模型、多模态大模型或者视觉大模型中的一项或多项组合。只要是能够在人机交互场景进行问答，例如基于对象的问题，输出针对问题的回复信息即可。对大模型的类型和网络结构不做具体限定。

示例性地，大模型可以用于调用外部工具，例如结合检索增强技术，以提高回复信息的专业性和准确性。

根据本公开的相关示例，可以基于用户反馈数据来对大模型的性能进行分析或者基于大模型生成的答案来对大模型的性能进行分析。

以利用用户反馈数据来对大模型的性能进行分析为例，可以采集用户在真实场景发生的行为数据。行为数据可以包括显式反馈数据和隐式反馈数据。例如，显示反馈数据可以包括用户主动标注，如答案评分、错误标记、答案修正文本等数据。隐式反馈数据可以包括行为日志、时间特征和上下文关联等，行为日志中可以记载有用户的追问次数、答案采纳率、人工修改比例、对话中断率等。时间特征可以包括用户停留时长例如阅读答案耗时、跳转行为例如点击参考链接或放弃阅读等。上下文关联可以包括同一会话中连续提问的主题相关性、用户主动补充信息的行为等。

可以基于行为数据进行行为特征解析，由此得到表征大模型运行性能的解析结果。例如，可以基于行为数据链接跳转后快速返回，且平均停留时间<5秒，确定解析结果表征大模型输出的答案信息不完整。还例如，可以基于追问内容，确定解析结果表征关键词“具体算法”指向答案的技术细节缺失等。

利用本公开相关示例采用的大模型的评估方法，存在评估粒度粗且缺陷定位不准确等问题。

具体地，例如显式反馈数据，例如用户主动反馈比例极低，隐式反馈数据如多次刷新虽能补充数据量，但需复杂清洗和标注，易引入噪声。

具体地，隐式反馈数据仅能反映部分问题维度，如追问可提示细节缺失等，但更高抽象层维度难以通过隐式反馈数据解析，进一步地，因一个隐式反馈数据可能是多维缺陷的耦合，难以通过解析进行解耦。

与结合用户的隐式反馈数据和显式反馈数据来进行大模型的评估相比，利用本公开实施例提供的大模型的评估方法，引入用于评估大模型处理过程的子流程的评估节点，细粒度的进行缺陷诊断，可以准确映射到问题理解、思考、生成等具体环节，有效避免大模型中的多个模块间错误结果传递导致的归因失真。能够快速定位问题关键所在，实现各环节的高效优化。此外，每个评估节点都包含多维度细粒度的评估指标，能对复杂耦合的多维缺陷进行精准解耦分析，为大模型的优化提供更具针对性和战略性的指导。

上文对本公开实施例提供的大模型的评估方法的优势进行了详细说明。下文将对如何确定评估节点进行详细说明。

根据本公开的实施例，评估节点可以包括多个。针对如图2所示的操作S220，基于对话内容特征，确定评估节点，可以包括：基于对话内容特征，从多个预定评估节点中确定多个候选评估节点。基于对话日志中的中间结果，对大模型是否已执行可选子流程进行识别，得到执行识别结果。在执行识别结果表征大模型已执行可选子流程的情况下，确定用于评估可选子流程的可选评估节点。基于可选评估节点，确定评估节点。

可选评估节点用于评估大模型所执行的可选子流程。在大模型执行了可选子流程的情况下，可以将可选评估节点作为评估节点。否则，仅将固定评估节点作为评估节点。固定评估节点用于评估大模型固定执行子流程。固定执行子流程，也可以理解为大模型必执行子流程。

以检索增强技术为例，可以基于对象输入的问题，确定是否执行检索子流程。检索子流程、思考子流程均为大模型可选子流程。与检索子流程对应，检索评估节点为可选评估节点。与思考子流程对应，思考评估节点为可选评估节点。理解和生成等则为大模型固定执行子流程，与该些固定执行子流程对应，理解和生成等评估节点为固定评估节点。

可以基于中间结果，例如检索后得到的检索结果，确定大模型是否已执行了可选子流程。在大模型执行了可选子流程的情况下，设置可选评估节点以进行评估。在大模型未涉及该可选子流程的情况下，可以不设置该可选评估节点以进行评估。

以调用其他工具例如绘图工具或者建模工具为例，可根据中间结果例如三维模型或者图像等，确定是否调用其他工具。在调用建模工具的情况下，可将建模评估节点作为评估节点。

根据本公开的实施例，基于大模型运行的实际情况，将评估节点设置为固定评估节点和可选评估节点，由此提高评估维度的全面性和灵活调整性。基于中间结果来进行可选评估节点的设置与否，合理结合实际情况，由此提高评估效率和评估有效性。

根据本公开的实施例，多个候选评估节点还包括固定评估节点，大模型的评估方法，还可以包括：从多个候选评估节点中确定用于评估大模型固定执行子流程的固定评估节点，作为评估节点。

大模型固定执行子流程基于对话内容特征确定。

可以建立对话内容特征与候选评估节点集之间的映射关系。基于对话内容特征和映射关系，从多个预定评估节点中确定候选评估节点集。候选评估节点集中包括候选固定评估节点和候选可选评估节点。可以将候选固定评估节点作为固定评估节点。

利用对话内容特征对预定评估节点进行初步筛选，由此提高筛选效率并简化筛选难度。此外，将候选固定评估节点作为固定评估节点，能够结合固定执行子流程的实际特点，提高该类型子流程的评估节点的确定效率和准确性。

上文对如何确定评估节点进行了说明。下文将对如何确定归属于评估节点的多个评估指标进行说明。

根据本公开的实施例，在执行如图2所示的操作S220之后，大模型的评估方法还可以包括：基于对话内容特征，确定归属于评估节点的多个评估指标。

可以为每个评估节点设置对应的多个预定评估指标。但是并不局限于此。还可以根据大模型的实际运行情况，从多个预定评估指标中确定多个评估指标。

由此提高确定评估指标的灵活性和针对性，避免因固定评估指标而导致的无效评估操作。

根据本公开的实施例，确定归属于评估节点的多个评估指标可以包括：基于对话内容的对话内容特征，从归属于评估节点的多个预定评估指标中确定多个候选评估指标。对与评估节点相对应的目标信息进行解析，得到解析结果。从归属于评估节点的多个候选评估指标中确定与解析结果相匹配的多个评估指标。

对话内容特征不仅能够用于筛选评估节点，还能够用于筛选评估指标。针对主观聊天式对话内容特征和客观聊天式对话内容特征，大模型所执行的相同子流程中的操作也不同。对应地，用于进行评估的评估指标的类型也不同。

可以预先建立对话内容特征、评估节点与候选指标集之间的映射关系。基于对话内容特征、评估节点和映射关系，确定归属于评估节点的候选指标集，即多个候选评估指标。

可以直接将多个候选评估指标作为待评估的评估指标。但是并不局限于此。还可以利用解析结果，从候选评估指标中确定与解析结果相匹配的多个评估指标。

可选地，目标信息可以是基于评估节点，从对话日志中筛选得到的。

以理解评估环节为例，目标信息可以包括对象输入的问题query，可以对问题进行解析，确定表征问题是否需要进行复杂需求理解的解析结果。

以问题为“2025年1月2日北京城市天气如何”为例，在解析结果表征问题为简单需求理解的情况下，则评估指标可以包括用于评估理解是否正确的评估指标。

以问题为“**诗人出生那年发生的大事件都有哪些”为例，在解析结果表征问题需要复杂需求理解的情况下，则评估指标可以包括用于评估多需求拆解、多跳需求理解等评估指标。

根据本公开的实施例，利用对话内容特征进行评估指标的初筛，进而提高评估指标的筛选效率和筛选精度。此外，根据实际情况以及对话日志中的相关目标信息，来确定归属于评估节点的多个评估指标，由此提高评估指标设置的灵活性和针对性，避免无效操作而导致的处理效率降低问题。

图3示意性示出了根据本公开实施例的确定多个评估指标的流程示意图。

如图3所示，对话日志可以包括对象310通过交互界面311输入的问题、大模型M310基于问题执行内容生成输出的回复信息和中间结果。基于中间结果确定大模型M310已经执行了的子流程包括理解子流程M311、检索子流程M312、思考子流程M313和生成子流程M314。可以针对多个子流程确定与理解子流程M311对应的理解评估节点、与检索子流程M312对应的检索评估节点、与思考子流程M313对应的思考评估节点和与生成子流程M314对应的生成评估节点。

如图3所示，针对每个评估节点，可从包括多个预定评估指标的评估指标集合320中筛选与对话内容特征相匹配的多个候选评估指标。从多个候选评估指标中确定目标信息的解析结果相匹配的评估指标。以用于对对应子流程进行评估。

上文对如何灵活确定评估节点以及评估指标进行了说明。下文将对如何确定目标信息进行说明。

根据本公开的实施例，确定与评估节点相匹配的目标信息，可以包括：对评估节点对应的目标子流程进行特征分析，得到子流程分析结果。从对话日志中确定与子流程分析结果相匹配的信息，作为目标信息。

可以对评估节点对应的目标子流程进行特征分析，得到子流程分析结果。

以检索增强技术为例，针对检索评估节点，可分析检索子流程的特征，确定检索子流程分析结果。例如包括：与对象输入的问题相关、且与理解子流程输出的检索词相关。因此，可以将对话日志的对象输入的问题，和检索子流程的待处理信息例如检索词和处理结果例如检索结果共同作为目标信息。

根据本公开的实施例，基于子流程分析结果，来进行目标信息的筛选，能够提高目标信息筛选的有效性和精准性。

根据本公开的实施例，从对话日志中确定与子流程分析结果相匹配的信息，作为目标信息，可以包括：基于对话内容特征，确定与评估节点相匹配的信息类型。基于信息类型，从对话日志中确定候选目标信息。从候选目标信息中确定与子流程分析结果相匹配的信息，作为目标信息。

可选地，获取评估节点的待分析的目标信息，可以建立对话内容特征、评估节点和信息类型之间的映射关系。基于对话内容特征、映射关系和评估节点，从对话日志中确定与信息类型相匹配的候选目标信息。

利用本公开实施例提供的基于对话内容特征对对话日志进行初筛，由此提高后续筛选效率和精准性。此外，利用子流程分析结果对不同子流程筛选不同子流程对应的目标信息，使得评估节点的评估分析精准且具有针对性，降低待分析信息中噪声的引入。

可选地，从候选目标信息中确定与子流程分析结果相匹配的信息，作为目标信息，包括：在子流程分析结果表征目标子流程与其他子流程之间存在关联的情况下，从对话日志中确定目标子流程和其他子流程各自的待处理信息和处理结果，作为目标信息。

对目标子流程的特征分析的维度可以包括是否与其他子流程相关联例如影响其他子流程或者受其他子流程影响、是否执行多次等。

对特征分析的手段不做限定。可选地，因子流程的数量与类型较少，可预先建立子流程特征表，在子流程特征表中罗列各个子流程分析结果。待确定用于评估该子流程的情况下，可以从子流程特征表中筛选得到对应的子流程分析结果。

以评估节点为理解评估节点为例，检索评估节点对应的检索子流程受理解子流程的影响，理解子流程作为目标子流程，与检索子流程之间关联。在此情况下，目标信息可以包括理解子流程的待处理信息和处理结果。例如，理解子流程的待处理信息可以包括对象输入的问题。处理结果可以包括是否需要进行检索的确定结果、表征需要检索哪些内容的检索词和检索句等。还包括检索子流程的待处理信息和处理结果。例如，检索子流程的待处理信息例如检索词或检索句等。处理结果可以包括检索结果。

根据大模型的实际运行特点，对不同子流程筛选不同子流程对应的目标信息，还结合相关联的其他子流程的信息，使得评估节点的评估分析精准有效且全面。

根据本公开的另一可选实施例，确定与评估节点相匹配的目标信息，包括：在子流程分析结果表征目标子流程包括生成子流程的情况下，获取对象行为日志。基于对象行为日志，确定与对话内容相关的行为数据。基于行为数据、对话日志中生成子流程的待处理信息和处理结果，确定目标信息。

生成子流程为大模型输出回复信息的子流程。

可以在结合生成子流程的待处理信息和处理结果的同时，结合对象行为日志，共同作为目标信息。

对象行为日志可以是采集对象交互过程中所执行的操作的日志。对象行为日志中可以包括收集在交互界面向对象反馈回复信息后，对象针对回复信息浏览的时长、是否分享、评分等行为数据。

可以将行为数据与生成子流程的待处理信息和处理结果结合，作为目标信息。基于该目标信息，可以确定评估指标例如用于评估对象针对回复信息的满意度的评估结果。

根据本公开的实施例，针对不同的评估环节，可以根据评估环节的特点，追加可参考的信息，由此提高评估结果的有效性和准确性。

图4示意性示出了根据本公开实施例的确定目标信息的示意图。

如图4所示，确定理解子流程、检索子流程、……、生成子流程各自的子流程分析结果。基于子流程分析结果，确定理解子流程与检索子流程相关联，检索子流程的处理结果例如检索结果受理解子流程操作的影响。因此用于评估理解子流程的理解评估节点410所需的第一目标信息411可以包括检索子流程的处理结果。

如图4所示，用于评估生成子流程的生成评估节点420所需的第二目标信息421可以包括生成子流程的待处理信息、处理结果，还可以包括对象行为日志中的行为数据。以此作为参考，用于评估生成子流程输出的回复信息的对象满意度。

上文对如何确定目标信息进行了说明。下文将对如何利用目标信息确定评估结果进行说明。

根据本公开的实施例，针对如图2所示的操作S220，基于对话日志，对大模型进行评估分析，确定多个评估指标各自的评估结果，可以包括：基于与评估节点相匹配的目标信息，对大模型进行与评估指标相对应的评估分析，确定评估指标的评估结果。

根据本公开的实施例，基于与评估节点相匹配的目标信息进行评估，由此降低无效信息的参与，使得每个评估指标的评估具有针对性，进而提高处理效率和评估有效性。

下文将具体介绍如何确定评估结果。

根据本公开的实施例，基于目标信息，对大模型进行与评估指标相对应的评估分析，确定评估指标的评估结果，可以包括：从多个评估工具中确定与评估指标相对应的目标评估工具。利用目标评估工具处理目标信息，得到评估指标的评估结果。

可选地，评估工具可以包括分类工具、相关性评估工具、规则匹配工具以及人工智能生成工具等。

具体地，可以建立评估工具、评估环节和评估指标的三级映射关系，基于映射关系、评估环节和评估指标，确定目标评估工具。

根据本公开的实施例，针对评估指标，从多个评估工具中确定目标评估工具，由此使得得到的评估结果精准有效。

根据本公开的实施例，利用目标评估工具处理目标信息，得到待评估指标的评估结果，包括以下至少一项：利用分类工具对目标信息进行分类，得到关于分类的评估结果。利用相关性评估工具对目标信息中的多个子信息之间的相关性进行评估，得到表征相关性的评估结果。利用规则匹配工具对目标信息进行规则匹配，得到规则评估的评估结果。利用人工智能生成工具基于目标信息进行内容生成，得到生成式的评估结果。

分类工具可以包括分类模型，针对理解评估节点，针对用于评估多需求拆解是否正确的评估指标、用于评估多跳需求理解是否正确的评估指标，可以利用分类工具来基于对象的问题以及检索词等来得到关于分类是否正确的评估结果。

相关性评估工具，可以包括向量相似度确定函数、语义相似度确定函数或者模型等。针对检索评估节点，针对用于评估检索结果是否相关的评估指标，可以利用相关性评估工具，得到表征相关性的评估结果。

规则匹配工具，可以包括筛选条件或者参考标准等信息。针对思考评估节点，针对用于评估思考是否重复的评估指标，可以利用重复阈值来进行比较，在重复次数大于预定阈值时，则表征重复的评估结果。否则，则表征无重复的评估结果。

人工智能生成工具可以包括大模型。针对生成评估节点，针对生成缺陷的评估指标，可以将回复信息输入至人工智能生成工具，以进行内容生成，得到生成式的表征回复信息存在哪些缺陷的评估结果。

根据本公开的实施例，针对不同维度的评估指标，利用不同的评估工具来进行评估，具有针对性。利用不同的多个评估工具结合进行评估，提高评估结果的准确性和有效性。

上文对通用类型的评估指标的评估结果的确定方式进行了说明，下文将对特殊类型的评估指标的评估结果的确定方式进行说明。

根据本公开的实施例，针对如图2所示的操作S230，大模型的评估方法还可以包括：从归属于评估节点的多个评估指标中确定与目标评估指标相关联的关联评估指标。基于目标评估指标的评估结果，确定关联评估指标的评估结果。

目标评估指标和关联评估指标各自的评估结果相互影响。

在一可选示例中，相互影响可以包括互斥影响。在大模型执行了针对目标评估指标对应的操作的情况下，则不执行与关联评估指标对应的操作。在此情况下，可基于目标评估指标的评估结果，确定关联评估指标的评估结果。例如，可直接确定关联评估指标的评估结果可以为空集。

在另一可选示例中，相互影响还可以包括关联影响。可以基于目标评估指标的评估结果，作为辅助参考信息，确定关联评估指标的评估结果。

具体地，以检索评估节点为例，在大模型执行检索子流程后，可得到多个检索结果。评估指标可以包括用于评估检索结果与问题是否相关的评估指标、用于评估多个检索结果之间是否冲突的评估指标、用于评估多个检索结果是否有用的评估指标。

在目标评估指标包括用于评估检索结果与问题是否相关的评估指标，且目标评估指标的评估结果表征多个检索结果均与问题相关的情况下，则用于评估多个检索结果是否有用的关联评估指标的关联评估结果，初步确定为表征多个检索结果均有用。

可选地，可以基于关联评估指标对应的目标信息，进行评估分析，得到评估结果。基于评估结果和初步确定的关联评估结果，最终确定关联评估指标的评估结果。由此提高准确性。

根据本公开的实施例，利用目标评估指标和关联评估指标之间的互相影响，可以保证评估结果的有效性和准确性的同时，提高确定不同维度的多个评估指标各自的评估结果的效率。

图5示意性示出了根据本公开实施例的确定评估结果的示意图。

如图5所示，多个评估指标集合510中的第一评估指标和第二评估指标可以分别采用通用方式例如评估工具评估分析得到第一评估结果531和第二评估结果532。可以根据评估指标的类型，从评估工具集合520中确定第一评估工具用于评估第一评估指标，第二评估工具用于评估第二评估指标。第N评估指标与第二评估指标关联，基于第二评估指标的第二评估结果532，确定第N评估指标的第N评估结果533。

上文对如何确定评估结果进行了说明。下文将对如何利用不同评估指标的评估结果来生成针对大模型的目标评估结果进行说明。以使得在分析全面的同时，目标评估结果的评估结论清晰、简练且有效。

根据本公开的实施例，针对如图2所示的操作S240，基于归属于评估节点的多个评估指标各自的评估结果，确定针对大模型的目标评估结果，可以包括：从多个评估指标各自的评估结果中确定表征大模型运行异常的评估结果，作为候选评估结果。基于对话内容的对话内容特征和候选评估结果，确定目标评估结果。

将表征大模型运行异常的候选评估结果和对话内容特征共同作为目标评估结果，能够深入分析大模型运行异常的应用场景、子流程以及子流程下的具体操作，由此提高大模型缺陷的靶向精准定位。

根据本公开的实施例，在执行针对如图2所示的操作S240，基于归属于评估节点的多个评估指标各自的评估结果，确定针对大模型的目标评估结果之前，大模型的评估方法还可以包括：确定对话日志中对话内容的对话内容特征。

确定对话日志中对话内容的对话内容特征，可以包括：对对话内容进行不同维度的特征分析，得到多个对话特征信息。基于多个对话特征信息，得到对话内容特征。

可选地，可以对对话内容中的问题进行多维度分析，确定问题的实效性、意图、所属领域等不同维度的对话特征信息。但是并不局限于此。还可以对整个对话内容进行对话趋势分析，例如用户需求的变化趋势、针对大模型反馈的回复信息的响应态度等。

可以采用不同手段对对话内容进行不同维度的特征分析，例如，可以利用规则匹配、模型分类或者人工智能生成等手段。可根据特征维度进行特征分析手段的适应性调整，以使得多个对话特征信息精准且有效。

此外，通过不同维度的多个对话特征信息来确定对话内容的对话内容特征，有利于对大模型的应用场景进行精准定位，建立以对象为中心的能力优化坐标系，提高大模型的目标评估结果的精细化程度。

上文对如何确定目标评估结果进行了说明。下文将对如何获取对话日志进行说明。以期通过对待参考的对话日志的筛选，降低噪声，提高评估精度。

根据本公开的实施例，针对如图2所示的操作S210，获取对话日志，可以包括：获取多个初始对话日志。基于多个初始对话日志各自的对话评估结果，对多个初始对话日志进行筛选，得到候选对话日志。在候选对话日志的对话内容特征与大模型的待评估领域相匹配的情况下，将候选对话日志作为对话日志。

根据本公开的实施例，初始对话日志可以是从日志数据库中收集得到的。可以直接将初始对话日志作为对话日志。但是对话日志的对话质量难以得到保证。可以基于多个初始对话日志各自的对话评估结果，对多个初始对话日志进行筛选，得到候选对话日志。

通过筛选，降低对话日志中的噪声含量，由此保证对话日志的质量。此外，基于对话内容特征对候选对话日志是否符合大模型待评估的方向进行进一步筛选，由此提高后续基于对话日志对大模型进行评估的针对性和有效性。

根据本公开的实施例，在执行如图2所示的操作S210之前，获取到初始对话日志后，大模型的评估方法还可以包括：确定初始对话日志的日志评估结果。

具体地，确定初始对话日志的日志评估结果可以包括：对初始对话日志进行质量评估，得到质量评估结果。对初始对话日志进行日志类型识别，得到类型识别结果。基于质量评估结果和类型识别结果，确定日志评估结果。

质量评估可以包括对对象输入的问题进行问题质量评估，例如完整性、复杂度等维度的评估。但是并不局限于此。还可以包括对问答轮次的评估等。只要是能够体现日志质量的质量评估结果即可。

可以直接将质量评估结果作为日志评估结果。但是并不局限于此。还可以对初始对话日志进行日志类型识别，例如确定初始对话日志的日志类型是否符合对大模型的评估需求。例如，在对大模型的检索增强技术进行评估的过程中，针对问题中已涉及了检索知识的初始对话日志，将不符合预期，作为噪声去除。还例如，在对大模型的文本问答进行评估的过程中，针对问题中涉及图像的初始对话日志，将作为噪声去除。

利用本公开实施例提供的质量评估结果和类型识别结果，多个不同维度的评估结果共同作为日志评估结果，能够提高筛选降噪的全面性和有效性，避免将无效数据作为对话日志进行分析而导致评估失败或者缺陷定位模糊等问题。

上文对如何对大模型进行评估进行了说明。下文将具体介绍利用目标评估结果对大模型进行优化。

图6示意性示出了根据本公开实施例的大模型的优化方法的流程图。

如图6所示，该方法包括操作S610~S620。

在操作S610，在大模型的目标评估结果表征大模型运行存在异常的情况下，基于目标评估结果，确定优化样本。

在操作S620，利用优化样本对大模型进行训练，得到优化后的大模型。

目标评估结果可以是利用上述实施例提供的大模型的评估方法确定的。

以大模型在理解子流程存在异常为例，具体的，在理解子流程中针对多跳需求理解存在问题。可以基于该目标评估结果，确定用于改善该问题的优化样本。利用优化样本对大模型进行训练，以得到在理解子流程得到多跳需求理解相应改善的优化后的大模型。

可选地，根据目标评估结果来确定优化样本，能够充分利用对大模型精细化地评估结果，提高优化针对性和可靠性。进而提高大模型优化效率。

下文将对如何基于目标评估结果，确定优化样本进行具体说明。

根据本公开的实施例，针对如图6所示的操作S610，基于目标评估结果，确定优化样本，可以包括：基于目标评估结果，确定表征大模型运行异常的评估结果。基于评估结果和目标评估结果中的对话内容特征，生成优化样本。

表征大模型运行异常的评估结果，基于该评估结果，确定待优化的指标。可以基于待优化的指标，构建优化样本。但是并不局限于此。还可以基于评估结果和对话内容特征，构建优化样本。对话内容包括对象输入的问题和大模型针对问题输出的回复信息。

如上文所述，对话内容特征可以包括不同维度的多个对话特征信息。例如实效性、意图、所属领域等不同维度的对话特征信息。

可以基于对话内容特征，确定优化样本的样本特征。样本特征可以与对话内容特征匹配。例如，对话内容特征包括交互领域的涉及检索增强技术的问题。优化样本也可以构建为与交互领域的涉及检索增强技术相关的对话样本。

可以对对话内容进行修正，得到优化样本。但是并不局限于此。还可以利用通用样本生成手段，得到优化样本。只要是能够与对话内容特征相匹配，且用于改善评估结果表征的大模型存在异常的指标即可。

根据本公开的实施例，通过对大模型评估和大模型的优化相结合，自动化将缺陷诊断与大模型性能增强形成闭环，推动大模型在交互场景中实现精准化、高效化的持续进化。此外，针对评估结果和对话内容特征，生成优化样本，使得优化样本和对大模型的优化方向精准且有效，进而提高优化效率和优化效果。

可选地，利用优化样本对大模型进行训练，可以包括：将优化样本的样本问题输入至大模型，得到样本回复信息。基于样本回复信息和优化样本的样本标签输入至损失函数中，得到损失值。基于损失值，对大模型的参数进行调整，得到优化后的大模型。但是并不局限于此。还可以包括：将优化样本的样本问题输入至大模型，得到样本回复信息。基于样本回复信息、优化样本的正样本标签和负样本标签，对大模型的参数进行调整，得到优化后的大模型，以期使得优化后的大模型输出的回复信息趋近于正样本标签，远离负样本标签。

根据本公开的另一可选示例，在目标评估结果中的表征大模型存在异常的评估结果，属于检索评估环节。还可以执行下述操作：在评估结果表征大模型的检索子流程存在异常的情况下，基于评估结果，优化数据库的专业性和检索引擎等。

由此从辅助工具角度对大模型进行优化，以提高大模型的性能。

图7示意性示出了根据本公开实施例的大模型的评估装置的框图。

如图7所示，大模型的评估装置700包括日志获取模块710、评估节点确定模块720、评估分析模块730以及结果确定模块740。

日志获取模块710，用于获取对话日志，其中，对话日志包括对话内容和中间结果。

评估节点确定模块720，用于基于对话内容的对话内容特征，确定评估节点和归属于评估节点的多个评估指标，其中，评估节点用于评估大模型执行的子流程。

评估分析模块730，用于基于对话日志，对大模型进行评估分析，确定多个评估指标各自的评估结果。

结果确定模块740，用于基于多个评估指标各自的评估结果，确定针对大模型的目标评估结果。

根据本公开的实施例，评估节点包括多个。

根据本公开的实施例，评估节点确定模块包括：候选评估节点识别子模块、执行结果确定子模块以及评估节点确定子模块。

候选评估节点识别子模块，用于基于对话内容特征，从多个预定评估节点中确定多个候选评估节点。

执行结果确定子模块，用于基于对话日志的中间结果，对大模型是否已执行可选子流程进行识别，得到执行识别结果。

评估节点确定子模块，用于在执行识别结果表征大模型已执行可选子流程的情况下，从多个候选评估节点中确定用于评估可选子流程的可选评估节点，作为评估节点

根据本公开的实施例，大模型评估装置还包括：固定评估节点确定模块。

固定评估节点确定模块，用于从多个候选评估节点中确定用于评估大模型固定执行子流程的固定评估节点，作为评估节点，其中，大模型固定执行子流程基于对话内容特征确定。

根据本公开的实施例，评估节点确定模块包括候选指标确定子模块、解析子模块以及评估指标确定子模块。

候选指标确定子模块，用于基于对话内容的对话内容特征，从归属于评估节点的多个预定评估指标中确定多个候选评估指标。

解析子模块，用于对与评估节点相对应的目标信息进行解析，得到解析结果，其中，目标信息从对话日志中确定。

评估指标确定子模块，用于从归属于评估节点的多个候选评估指标中确定与解析结果相匹配的多个评估指标。

根据本公开的实施例，评估分析子模块包括：信息确定单元、评估工具确定单元以及评估单元。

信息确定单元，用于确定与评估节点相匹配的目标信息。

评估工具确定单元，用于从多个评估工具中确定与评估指标相对应的目标评估工具。

评估单元，用于利用目标评估工具处理目标信息，得到评估指标的评估结果。

根据本公开的实施例，评估单元包括以下至少一项子单元：

分类子单元，用于利用分类工具对目标信息进行分类，得到关于分类的评估结果。

相关子单元，用于利用相关性评估工具对目标信息中的多个子信息之间的相关性进行评估，得到表征相关性的评估结果。

规则匹配子单元，用于利用规则匹配工具对目标信息进行规则匹配，得到规则评估的评估结果；

内容生成子单元，用于利用人工智能生成工具基于目标信息进行内容生成，得到生成式的评估结果。

根据本公开的实施例，大模型的评估装置还包括：关联指标确定模块以及关联评估结果确定模块。

关联指标确定模块，用于从归属于评估节点的多个评估指标中确定与目标评估指标相关联的关联评估指标，其中，目标评估指标和关联评估指标各自的评估结果相互影响。

关联评估结果确定模块，用于基于目标评估指标的评估结果，确定关联评估指标的评估结果。

根据本公开的实施例，信息确定单元包括：流程特征分析子单元以及信息匹配子单元。

流程特征分析子单元，用于对评估节点对应的目标子流程进行特征分析，得到子流程分析结果。

信息匹配子单元，用于从对话日志中确定与子流程分析结果相匹配的信息，作为目标信息。

根据本公开的实施例，信息匹配子单元用于基于对话内容特征，确定与评估节点相匹配的信息类型。基于信息类型，从对话日志中确定候选目标信息。从候选目标信息中确定与子流程分析结果相匹配的信息，作为目标信息。

根据本公开的实施例，信息匹配子单元还用于在子流程分析结果表征目标子流程与其他子流程之间存在关联的情况下，从候选目标信息中确定目标子流程和其他子流程各自的待处理信息和处理结果，作为目标信息。

根据本公开的实施例，信息确定单元包括：行为日志获取子单元、行为数据筛选子单元以及目标信息确定子单元。

行为日志获取子单元，用于在子流程分析结果表征目标子流程包括生成子流程的情况下，获取对象行为日志，其中，生成子流程为大模型输出回复信息的子流程。

行为数据筛选子单元，用于基于对象行为日志，确定与对话内容相关的行为数据。

目标信息确定子单元，用于基于行为数据、对话日志中生成子流程的待处理信息和处理结果，确定目标信息。

根据本公开的实施例，结果确定模块包括：候选评估结果确定子模块、目标结果确定子模块。

候选评估结果确定子模块，用于从多个评估指标各自的评估结果中确定表征大模型运行异常的评估结果，作为候选评估结果。

目标结果确定子模块，用于基于对话内容的对话内容特征和候选评估结果，确定目标评估结果。

根据本公开的实施例，大模型的评估装置还包括：内容特征分析模块、画像生成模块。

内容特征分析模块，用于对对话内容进行不同维度的特征分析，得到多个对话特征信息。

画像生成模块，用于基于多个对话特征信息，得到对话内容特征。

根据本公开的实施例，日志获取模块包括：日志获取子模块、第一日志筛选子模块、第二日志筛选子模块。

日志获取子模块，用于获取多个初始对话日志。

第一日志筛选子模块，用于基于多个初始对话日志各自的对话评估结果，对多个初始对话日志进行筛选，得到候选对话日志。

第二日志筛选子模块，用于在候选对话日志的对话内容特征与大模型的待评估领域相匹配的情况下，将候选对话日志作为对话日志。

根据本公开的实施例，大模型的评估装置还包括：质量评估模块、类型识别模块以及日志评估模块。

质量评估模块，用于对初始对话日志进行质量评估，得到质量评估结果。

类型识别模块，用于对初始对话日志进行日志类型识别，得到类型识别结果。

日志评估模块，用于基于质量评估结果和类型识别结果，确定日志评估结果。

图8示意性示出了根据本公开实施例的大模型的优化装置的框图。

如图8所示，大模型的优化装置800包括：样本确定模块810以及训练模块820。

样本确定模块810，用于在大模型的目标评估结果表征大模型运行存在异常的情况下，基于目标评估结果，确定优化样本。

训练模块820，用于利用优化样本对大模型进行训练，得到优化后的大模型。

目标评估结果利用大模型的评估装置确定。

根据本公开的实施例，样本确定模块包括：异常评估确定子模块以及样本确定子模块。

异常评估确定子模块，用于基于目标评估结果，确定表征大模型运行异常的评估结果。

样本确定子模块，用于基于评估结果和目标评估结果中的对话内容特征，生成优化样本。

对话内容包括对象输入的问题和大模型针对问题输出的回复信息。

图9示意性示出了根据本公开实施例的基于大模型的智能体的结构框图。

在本公开的实施例中，如图9所示，AI智能体900可以包括输入模块910、处理模块920和输出模块930。

输入模块910，用于接收输入信息。

处理模块920，用于基于输入模块接收的输入信息确定目标任务，基于目标任务确定大模型，通过调用大模型执行根据本公开实施例提供的大模型的评估方法，或者通过调用大模型执行根据本公开实施例提供的大模型的训练方法得到输出信息。

输出模块930，用于输出处理模块得到的输出信息。

根据本公开的实施例，输入模块910负责接收或感知来自外界(例如用户或外部环境)的查询、请求、指令、信号或数据等信息，并将其转换为AI智能体900能够理解和处理的格式。输入模块910是AI智能体900与外界进行交互的首要环节，它使得AI智能体900能够高效、准确地从外界获取必要的“感官”信息，并对这些信息做出响应。

在示例中，输入模块910可以输入前文描述的对话日志或者目标评估结果等。

在示例中，处理模块920是AI智能体900处理复杂任务能力的核心支撑。处理模块920可以执行前文描述的大模型的评估方法、大模型的优化方法。

在示例中，处理模块920的性能可以与AI智能体900所基于的大模型息息相关。为了充分发挥大模型的能力，处理模块920的内部结构可以被设计成高度可配置、可扩展的，以便应对真实场景下各种不同类型的任务和需求。

在示例中，AI智能体900在获取对话日志后，处理模块920可以利用评估大模型处理对话日志，以对大模型进行评估分析，得到针对大模型的目标评估结果，并将该目标评估结果传递给输出模块930。

可以理解，虽然大模型有着优异的语言理解与生成能力，但它与人一样，不借助任何工具，能够解决的任务是很有限的。当AI智能体900被赋予工具调用的能力后，就可以实现诸如借助计算器完成数学运算、借助python完成数据分析、借助搜索引擎完成天气预报的任务。

在示例中，输出模块930可以输出前文描述的目标评估结果或训练后的大模型。

根据本公开实施例的AI智能体900可以简单且有效地提升智能化程度，并提升灵活性和通用性。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

设备1000中的多个部件连接至输入/输出（I/O）接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如大模型的评估方法。例如，在一些实施例中，大模型的评估方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的大模型的评估方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行大模型的评估方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种大模型的评估方法，包括：

获取对话日志，其中，所述对话日志包括对话内容和中间结果；

基于所述对话内容的对话内容特征，确定评估节点和归属于所述评估节点的多个评估指标，其中，所述评估节点用于评估所述大模型执行的子流程；

基于所述对话日志，对所述大模型进行评估分析，确定多个所述评估指标各自的评估结果；以及

基于多个所述评估指标各自的评估结果，确定针对所述大模型的目标评估结果。

2.根据权利要求1所述的方法，其中，所述基于所述对话内容的对话内容特征，确定评估节点，包括：

基于所述对话内容特征，从多个预定评估节点中确定多个候选评估节点；

基于所述对话日志的所述中间结果，对所述大模型是否已执行可选子流程进行识别，得到执行识别结果；以及

在所述执行识别结果表征所述大模型已执行所述可选子流程的情况下，从多个所述候选评估节点中确定用于评估所述可选子流程的可选评估节点，作为所述评估节点。

3.根据权利要求2所述的方法，其中，多个所述候选评估节点还包括固定评估节点，所述方法还包括：

从多个所述候选评估节点中确定用于评估所述大模型固定执行子流程的固定评估节点，作为所述评估节点，其中，所述大模型固定执行子流程基于所述对话内容特征确定。

4.根据权利要求1所述的方法，其中，所述基于所述对话内容的对话内容特征，确定归属于所述评估节点的多个评估指标，包括：

基于所述对话内容的对话内容特征，从归属于所述评估节点的多个预定评估指标中确定多个候选评估指标；

对与所述评估节点相对应的目标信息进行解析，得到解析结果，其中，所述目标信息从所述对话日志中确定；以及

从归属于所述评估节点的多个所述候选评估指标中确定与所述解析结果相匹配的多个所述评估指标。

5.根据权利要求1至4中任一项所述的方法，其中，所述基于所述对话日志，对所述大模型进行评估分析，确定多个所述评估指标各自的评估结果，包括：

确定与所述评估节点相匹配的目标信息；

从多个评估工具中确定与所述评估指标相对应的目标评估工具；以及

利用所述目标评估工具处理所述目标信息，得到所述评估指标的评估结果。

6.根据权利要求5所述的方法，其中，所述利用所述目标评估工具处理所述目标信息，得到所述评估指标的评估结果，包括以下至少一项：

利用分类工具对所述目标信息进行分类，得到关于分类的评估结果；

利用相关性评估工具对所述目标信息中的多个子信息之间的相关性进行评估，得到表征相关性的评估结果；

利用规则匹配工具对所述目标信息进行规则匹配，得到规则评估的评估结果；

利用人工智能生成工具基于所述目标信息进行内容生成，得到生成式的评估结果。

7.根据权利要求1至6中任一项所述的方法，还包括：

从归属于所述评估节点的多个评估指标中确定与目标评估指标相关联的关联评估指标，其中，所述目标评估指标和所述关联评估指标各自的评估结果相互影响；以及

基于所述目标评估指标的评估结果，确定所述关联评估指标的评估结果。

8.根据权利要求5所述的方法，其中，所述确定与所述评估节点相匹配的目标信息，包括：

对所述评估节点对应的目标子流程进行特征分析，得到子流程分析结果；以及

从所述对话日志中确定与所述子流程分析结果相匹配的信息，作为目标信息。

9.根据权利要求8所述的方法，其中，所述从所述对话日志中确定与所述子流程分析结果相匹配的信息，作为目标信息，包括：

基于所述对话内容特征，确定与所述评估节点相匹配的信息类型；

基于所述信息类型，从所述对话日志中确定候选目标信息；以及

从所述候选目标信息中确定与所述子流程分析结果相匹配的信息，作为所述目标信息。

10.根据权利要求9所述的方法，其中，所述从所述候选目标信息中确定与所述子流程分析结果相匹配的信息，作为所述目标信息，包括：

在所述子流程分析结果表征所述目标子流程与其他子流程之间存在关联的情况下，从所述候选目标信息中确定所述目标子流程和所述其他子流程各自的待处理信息和处理结果，作为所述目标信息。

11.根据权利要求5所述的方法，其中，所述确定与所述评估节点相匹配的目标信息，包括：

在所述子流程分析结果表征所述目标子流程包括生成子流程的情况下，获取对象行为日志，其中，所述生成子流程为所述大模型输出所述回复信息的子流程；

基于所述对象行为日志，确定与所述对话内容相关的行为数据；以及

基于所述行为数据、所述对话日志中所述生成子流程的待处理信息和处理结果，确定所述目标信息。

12.根据权利要求1至11中任一项所述的方法，其中，所述基于多个所述评估指标各自的评估结果，确定针对所述大模型的目标评估结果，包括：

从多个评估指标各自的评估结果中确定表征所述大模型运行异常的评估结果，作为候选评估结果；以及

基于所述对话内容特征和所述候选评估结果，确定所述目标评估结果。

13.根据权利要求1至12中任一项所述的方法，其中，所述获取对话日志，包括：

获取多个初始对话日志；

基于多个所述初始对话日志各自的对话评估结果，对多个所述初始对话日志进行筛选，得到候选对话日志；以及

在所述候选对话日志的对话内容特征与所述大模型的待评估领域相匹配的情况下，将所述候选对话日志作为所述对话日志。

14.一种大模型的优化方法，包括：

在所述大模型的目标评估结果表征所述大模型运行存在异常的情况下，基于所述目标评估结果，确定优化样本；以及

利用所述优化样本对所述大模型进行训练，得到优化后的大模型；

其中，所述目标评估结果利用如权利要求1至15中任一项所述方法确定。

15.一种大模型的评估装置，包括：

日志获取模块，用于获取对话日志，其中，所述对话日志包括对话内容和中间结果；

评估节点确定模块，用于基于所述对话内容的对话内容特征，确定评估节点和归属于所述评估节点的多个评估指标，其中，所述评估节点用于评估所述大模型执行的子流程；

评估分析模块，用于基于所述对话日志，对所述大模型进行评估分析，确定多个所述评估指标各自的评估结果；以及

结果确定模块，用于基于多个所述评估指标各自的评估结果，确定针对所述大模型的目标评估结果。

16.一种大模型的优化装置，包括：

样本确定模块，用于在所述大模型的目标评估结果表征所述大模型运行存在异常的情况下，基于所述目标评估结果，确定优化样本；以及

训练模块，用于利用所述优化样本对所述大模型进行训练，得到优化后的大模型；

其中，所述目标评估结果利用如权利要求18所述装置确定。

17.一种基于大模型的智能体，包括：

输入模块，用于接收输入信息；

处理模块，用于基于所述输入模块接收的所述输入信息确定目标任务，基于所述目标任务确定大模型，通过调用所述大模型执行权利要求1至14中任一项所述的方法，得到输出信息；

输出模块，用于输出所述处理模块得到的所述输出信息。

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至14中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至14中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至14中任一项所述的方法。