WO2024250919A1

WO2024250919A1 - 一种异步仲裁方法及装置

Info

Publication number: WO2024250919A1
Application number: PCT/CN2024/093216
Authority: WO
Inventors: 胡万明; 汪旭; 任玉鑫; 林子畅
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2023-06-08
Filing date: 2024-05-14
Publication date: 2024-12-12
Anticipated expiration: 2025-12-08
Also published as: CN119105976A

Abstract

本申请提供了一种异步仲裁方法及装置，该方法包括：开始执行N个冗余实例；N为大于1的整数；在第i个冗余实例运行至同步点时停止执行第i个冗余实例，记录第i个冗余实例当前的输出结果，得到第i个仲裁数据；i为不大于N的正整数；保存第i个仲裁数据；在保存第i个仲裁数据后，执行第i个冗余实例的同步点后的部分；在得到N个仲裁数据后，从N个仲裁数据中确定目标仲裁数据，目标仲裁数据对应的冗余实例为在同步点正确的冗余实例。该方法中，冗余实例不需要在同步点忙等待，可以提高CPU利用率。

Description

一种异步仲裁方法及装置

本申请要求在2023年06月08日提交中国国家知识产权局、申请号为202310679561.8的中国专利申请的优先权，发明名称为“一种异步仲裁方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及电子技术，尤其涉及一种异步仲裁方法及装置。

背景技术

随着多模冗余技术的发展，多模冗余技术在航空航天、卫星、分布式系统和高性能计算(High performance computing，HPC)等领域应用越来越广泛，例如被运用于数据库存储、科研计算、气象预报、军事研究和基因测序等场景。

目前，为实现多模冗余技术中在同一状态上进行仲裁通常采用实例忙等方式，例如工业界常用的三模冗余OS技术，该技术通过仲裁器进行同步仲裁，其同步采取阻塞、忙等待的方式，在同步点拉齐所有冗余实例的状态。

但是，该多模同步方式存在着很多不足，其中，最显著的痛点在于：不同冗余实例的执行快慢不同，忙等待造成中央处理器(Central Processing Unit，CPU)利用率低，且单点最慢的实例成为整体软硬件运行效率的瓶颈。

发明内容

本申请提供了一种异步仲裁方法及装置，该方法可以在冗余实例运行至同步点时保存在该同步点的仲裁数据，在保存仲裁数据后继续执行该冗余实例的同步点后的部分；最后对所有冗余实例的仲裁数据进行仲裁，该方法中，冗余实例不需要在同步点忙等待，可以提高CPU利用率。

第一方面，本申请实施例提供了一种异步仲裁方法，该方法包括：

开始执行N个冗余实例；N为大于1的整数；

在第i个冗余实例运行至同步点时停止执行第i个冗余实例，记录第i个冗余实例当前的输出结果，得到第i个仲裁数据；i为不大于N的正整数；

保存第i个仲裁数据；

在保存第i个仲裁数据后，执行第i个冗余实例的同步点后的部分；

在得到N个仲裁数据后，从N个仲裁数据中确定目标仲裁数据，目标仲裁数据对应的冗余实例为在同步点正确的冗余实例。

其中，N个冗余实例为N模冗余技术中的N个实例；N个冗余实例可以是经同一个实例复制得到的。

其中，实例是包括运行对象和目标数据的功能模块。实例可以包括运行对象和运行过程中涉及的目标数据(如输入和运行数据)，运行对象可以为软件模块或者硬件模块；实例可以在接收输入后开始执行运行对象，运行对象可以在运行过程中调用运行数据。

在N模冗余技术中，N个冗余实例的运行对象也可以为称为冗余对象；N个冗余实例的冗余对象相同，接收的输入相同，在运行过程中的调用的运行数据相同。

其中，第i个仲裁数据用于指示第i个实例执行至当前位置的运行情况，仲裁数据至少包括当前位置的输出结果。

本申请实施例中，通过在保存冗余实例的仲裁数据后继续执行该冗余实例，可以实现多个冗余实例的异步执行，有效消除较快实例的同步忙等，提高程序整体CPU资源利用率。其中，较快实例是指N个冗余实例中较快运行至同步点的实例。

结合第一方面，在一种可能的实现方式中，在保存第i个仲裁数据之后，执行第i个冗余实例的同步点后的部分之前，该方法还包括：

保存第i个冗余实例在同步点的检查点CKPT数据，第i个冗余实例在同步点的CKPT数据用于恢复第i个冗余实例在同步点的数据状态。

本申请实施例中，还可以对冗余实例进行检查点checkpoint，从而保存用于恢复至当前同步点状态的CKPT数据；后续可以基于正确的CKPT数据对错误的冗余实例进行纠错，从而保证多模冗余的冗余实例的个数不会减少，可以有效提高多模冗余的可靠性和可用性。该方法中，CKPT数据可以保证异步回滚时存在需要恢复至的状态，当全员仲裁识别故障，无论是最慢实例亦或较快实例出现错误，都可异步纠错。

结合第一方面，在一种可能的实现方式中，第i个仲裁数据不为目标仲裁数据；在从N个仲裁数据中确定目标仲裁数据后，方法还包括：

基于正确的冗余实例在同步点的CKPT数据，恢复第i个冗余实例；

从同步点处执行恢复后的第i个冗余实例。

本申请实施例中，可以基于正确的冗余实例在同步点的CKPT数据，对错误的冗余实例进行纠错，从而保证多模冗余的冗余实例的个数不会减少，可以有效提高多模冗余的可靠性和可用性。

结合第一方面，在一种可能的实现方式中，保存第i个冗余实例在同步点的检查点CKPT数据，包括：

在识别到第i个冗余实例的仲裁数据与保存的仲裁数据相同时，不保存第i个冗余实例的CKPT数据。

本申请实施例中，可以先识别冗余实例的仲裁数据与保存的仲裁数据是否相同(即预仲裁技术)；进而，针对仲裁数据相同的实例，可以仅保存一个CKPT数据，该方法可以减少CKPT次数，减少功耗，提高CPU资源利用率。

结合第一方面，在一种可能的实现方式中，第i个冗余实例是N个冗余实例中除最后一个运行至同步点的实例之外的实例。

本申请实施例中，可以不对最后一个冗余实例进行检查点checkpoint，不需保存该冗余实例的CKPT数据。

该方法中，通过预仲裁技术，可以保证CKPT实例和最慢实例至少存在一员为正确状态，同时可避免多余的CKPT次数。其中，CKPT实例是指进行过CKPT的实例(即保存了CKPT数据的实例)；最慢实例是指最后一个运行至同步点的实例。例如，无故障场景下的一轮同步点仅需进行一次CKPT。一般最坏故障场景下有N/2-1个实例出现故障，那么，最坏故障场景下的N模实例在一轮同步点也仅需进行N/2-1次CKPT，达到理论最优CKPT代价。

在一种可能的实现方式中，第i个冗余实例是N个冗余实例中最后一个运行至同步点的实例时，不执行识别第i个冗余实例的仲裁数据与保存的仲裁数据是否相同的操作，而是直接对所有仲裁数据进行全员仲裁(即确定目标仲裁数据)以及纠错回滚等操作，在执行完该操作后再执行该冗余实例，该方法可以减少预仲裁次数。

结合第一方面，在一种可能的实现方式中，从N个仲裁数据确定目标仲裁数据，包括：

将N个仲裁数据中个数最多的仲裁数据确定为目标仲裁数据；

或，将N个仲裁数据中个数大于预设个数的仲裁数据确定为目标仲裁数据。

本申请实施例中，通过将个数最多或者个数大于预设个数的仲裁数据确定为目标仲裁数据，可以保证正确冗余实例的可用性和可靠性。

结合第一方面，在一种可能的实现方式中，保存第i个仲裁数据，包括：

在第i个冗余实例是除最后一个运行至同步点之外的实例时，保存第i个仲裁数据；

该方法还包括：

在得到最后一个运行至同步点时的冗余实例的仲裁数据时，执行从N个仲裁数据确定目标仲裁数据的步骤。

本申请实施例中，针对最慢实例，不保存其仲裁数据，可以减少共享内存消耗和通信开销。

结合第一方面，在一种可能的实现方式中，方法还包括：

在第i个冗余实例与N个冗余实例中运行最慢的冗余实例的执行差距大于预设差距时，暂停执行第i个冗余实例。

本申请实施例中，可以通过控制冗余实例之间的执行差距程度，从而避免实例间出现步调大幅不一致。

结合第一方面，在一种可能的实现方式中，冗余实例中同步点的个数为至少两个，第i个冗余实例的仲裁数据存储在预设存储空间；从N个仲裁数据中确定目标仲裁数据之后，方法还包括：删除同步点的仲裁数据；

暂停执行第i个冗余实例，包括：在预设存储空间被占满时，暂停执行第i个冗余实例。

本申请实施例中，可以通过选择配置共享内存为固定大小，从而由共享内存大小决定直接实例间的执行差距程度，从而避免冗余实例之间出现步调大幅不一致。

结合第一方面，在一种可能的实现方式中，实例，记录第i个冗余实例当前状态的目标数据，得到第i个仲裁数据，包括：

第i个应用实例运行至调用库函数或库函数返回数据时停止执行第i个应用实例，记录第i个应用实例当前的系统调用号、输入参数和输出参数中的至少一个，得到第i个仲裁数据。

第二方面，本申请实施例提供了一种异步仲裁装置，该装置包括N个处理器和仲裁器；

N个处理器分别用于，执行实例；在实例执行至同步点时将同步点的仲裁数据输出至仲裁器，仲裁数据包括当前的输出结果；在输出同步点的仲裁数据后执行同步点后的处理步骤；

仲裁器，用于在接收到处理器发送的仲裁数据时保存仲裁数据；在接收到N个仲裁数据时从N个仲裁数据中确定目标仲裁数据。

结合第二方面，在一种可能的实现方式中，处理器，还用于在处理至同步点时将同步点的检查点CKPT数据发送至仲裁器；

仲裁器，还用于将目标仲裁数据对应的CKPT数据发送至非目标仲裁数据对应的处理器；

非目标仲裁数据对应的处理器，还用于基于目标仲裁数据对应的CKPT数据恢复在同步点的数据状态。

第三方面，本申请实施例提供了一种异步仲裁装置，该装置包括：

执行单元，用于针对同一输入，执行N个冗余实例，N为大于1的整数；i为不大于N的正整数；

执行单元，还用于：在第i个冗余实例运行至同步点时停止执行第i个冗余实例，记录第i个冗余实例当前的输出结果，得到第i个仲裁数据；保存第i个仲裁数据；在保存第i个仲裁数据后，执行第i个冗余实例的同步点后的部分；

确定单元，用于在得到N个仲裁数据后，从N个仲裁数据中确定目标仲裁数据，目标仲裁数据对应的冗余实例为在同步点正确的冗余实例。

结合第三方面，在一种可能的实现方式中，装置还包括保存单元；

保存单元，用于保存第i个冗余实例在同步点的检查点CKPT数据，第i个冗余实例在同步点的CKPT数据用于恢复第i个冗余实例在同步点的数据状态。

结合第三方面，在一种可能的实现方式中，装置还包括恢复单元；恢复单元，用于：

从同步点处执行恢复后的第i个冗余实例。

结合第三方面，在一种可能的实现方式中，保存单元，还用于：

结合第三方面，在一种可能的实现方式中，第i个冗余实例是除N个冗余实例中最后一个运行至同步点的实例之外的实例。

结合第三方面，在一种可能的实现方式中，确定单元，具体用于：

将N个仲裁数据中个数最多的仲裁数据确定为目标仲裁数据；

结合第三方面，在一种可能的实现方式中，执行单元，具体用于：

在所述第i个冗余实例是除最后一个运行至所述同步点之外的实例时，保存所述第i个仲裁数据；在得到最后一个运行至所述同步点时的冗余实例的仲裁数据时，执行所述从所述N个仲裁数据确定目标仲裁数据的步骤。

结合第三方面，在一种可能的实现方式中，执行单元，装置还包括暂停单元，暂停单元，用于：

结合第三方面，在一种可能的实现方式中，执行单元，冗余实例中同步点的个数为至少两个，第i个冗余实例的仲裁数据存储在预设存储空间；装置还包括删除单元，删除单元，用于删除同步点的仲裁数据；

暂停单元，具体用于在预设存储空间被占满时，暂停执行第i个冗余实例。

结合第三方面，在一种可能的实现方式中，执行单元，冗余实例为应用实例，执行单元具体用于：

第四方面，本申请提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面或第一方面中任一可能的实现方式中的异步仲裁方法。

第五方面，本申请提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一可能的实现方式中的异步仲裁方法。

第六方面，本申请提供了一种芯片，包括：处理器和接口，所述处理器和接口相互配合，使得所述芯片执行上述第一方面或第一方面中任一可能的实现方式中的异步仲裁方法。

可以理解地，上述第二方面和第三方面提供的异步仲裁装置、第四方面提供的计算机可读存储介质、第五方面提供的计算机程序产品、第六提供的芯片均用于执行本申请实施例所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

图1是本申请实施例提供的一种多模冗余的示意图；

图2是本申请实施例提供的一种冗余实例同步等待的示意图；

图3是本申请实施例提供的一种应用场景的示意图；

图4是本申请实施例提供的另一种应用场景的示意图；

图5是本申请实施例提供的一种异步仲裁方法的流程图；

图6是本申请实施例提供的另一种异步仲裁方法的流程图；

图7是本申请实施例提供的一种多个冗余实例的执行示意图；

图8A是本申请实施例提供的一种N个冗余实例在同步点无故障时的示意图；

图8B是本申请实施例提供的一种N个冗余实例在同步点存在故障时的示意图；

图9为本申请实施例提供的又一种异步仲裁方法的流程图；

图10是本申请实施例提供的一种管理仲裁数据的示意图；

图11是本申请实施例提供的再一种异步仲裁方法的示意图；

图12是本申请实施例提供的另一种管理仲裁数据的示意图；

图13是本申请实施例提供的一种异步仲裁装置130的结构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markup language，XML)等特定计算机语言编写的源代码，界面源代码在电子设备上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphic user interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

首先，先介绍本申请实施例中的技术术语。

1、冗余(Redundancy)

在工程领域中，冗余通常是指通过多重备份来增加系统的可靠性。即指重复配置系统的一些关键部件，当系统发生故障时，冗余配置的部件介入并承担故障部件的工作，由此减少系统的故障时间。冗余虽然带来了系统的复杂性和提高了成本，但对于业务关键系统因为故障造成的业务中断的代价之高来说，这点代价是必要的。

其中，可靠性(Reliability)是指设备在规定的条件下和规定的时间内，完成规定任务的概率。提高可靠性需要减少系统中断(故障)的次数。可用性(Availability)是指在一个给定的时间间隔内，对于一个功能个体来讲，总的可用时间所占的比例。提高可用性需要强调减少从故障中恢复的时间。

对于一些业务关键系统(Mission Critical System)来说，系统故障造成的业务中断的代价非常大，因此在设计中必须考虑避免单点故障、提升系统的可靠性和可用性。冗余是提高系统可靠性必不可少的手段。

2、多模冗余与冗余实例

当系统或业务需要保障高可靠性时，多模冗余是必要且有效的可靠性机制之一。多模冗余的流程包括对硬件模块、软件程序相同的输入进行冗余执行。进一步的，可以对冗余对象的输出进行仲裁。冗余对象的实例(简称冗余实例)涉及的数据包括相同指令流、备份数据、冗余进程等。

请参见图1，图1是本申请实施例提供的一种多模冗余的示意图。图1示例性示出了两个冗余实例，多模冗余的流程可以为对该两个冗余实例输入相同的输入，进行冗余执行，最后，将得到的输出进行仲裁。其中，两个冗余实例可以是复制(Sphere of Replication，SoR)得到的。应理解，多模冗余为至少两个冗余实例。

3、多模冗余仲裁

为了识别冗余实例中可能出现的错误，需要在指定仲裁处验证冗余实例是否符合预期，例如比较实例间的输出值是否一致。

4、冗余实例同步

由于多个冗余实例的执行速度可以不同，因此多个冗余实例执行至同步点的时间可以是不同的。为了保障多模冗余无故障时状态通过仲裁，可以使冗余实例之间保持同步，以使各冗余实例在长时间执行后不呈状态偏离趋势。

同步方法通常会在软硬件流程中指定同步点，为了拉齐冗余实例间的步调，先行到达同步点的实例则等待直至后续实例陆续到达，通过仲裁后再通过该轮同步点。

请参见图2，图2是本申请实施例提供的一种冗余实例同步等待的示意图。图2示例性示出了3个冗余实例，分别为冗余实例1、冗余实例2和冗余实例3；以及4个同步点，分别为同步点1、同步点2、同步点3和同步点4；图中以白色矩形代表实例运行中，以灰色矩形代表运行至同步点，斜线矩形代表停止运行(即忙等待中)。

如图2所示，冗余实例1、冗余实例2和冗余实例3均包括上述4个同步点，横向为时间方向，可见，每一个冗余实例运行至同步点的时间并不相同。以同步点1为例进行说明，冗余实例1为第一个运行至同步点1的实例，在冗余实例1到达同步点1后开始等待；冗余实例2为第二个运行至同步点1的实例，在冗余实例2到达同步点1后开始等待；冗余实例3为最后一个运行至同步点1的实例，在冗余实例3为运行至同步点1时的时刻为同步时刻t1，同步时刻t1开始冗余实例2和冗余实例3才开始继续运行。

本申请实施例中，同步点是指实例中的某一预设位置，如图2所示的同步点，而不是图2所示的同步时刻。

5、检查点(Checkpoint，CKPT)实例

在多模冗余过程中，可以为了执行流/数据流回滚纠错而定期做状态保存，进行状态保存即为进行CKPT。为方便描述，本申请实施例中将进行CKPT后的冗余实例称为CKPT实例。

为实现多模冗余技术中的同步，在同一状态上进行仲裁，可以采用实例忙等方式，例如，工业界常用的三模冗余OS技术，采用仲裁器进行同步仲裁，其同步采取阻塞、忙等待的方式，在同步点拉齐所有冗余实例的状态。

然而，该多模同步方式存在着很多不足，其中，最显著的痛点在于：不同冗余实例的执行快慢不同，传统忙等待的方法造成CPU利用率低，且单点最慢的副本成为整体软硬件运行效率瓶颈。

目前，多模冗余技术在同步仲裁时可以采用主实例(leader)加跟随实例(follower)的模式，共享内存(如Ring Buffer)支持进程间通信，followers需遵循leader的外部事件行为，并且对数据状态进行仲裁。具体步骤如下：

步骤一：冗余执行开始后，在到达一轮同步点时，检查当前实例是leader还是follower；步骤二：是leader则保存仲裁数据至共享内存并恢复执行，是follower则查看leader是否到达；步骤三：若leader已到达则从共享内存获取leader数据并进行仲裁，若follower先于leader到达则同步等待至leader到达。该模式可消除leader和后续follower的同步忙等待，但是由于leader指定为固定线程，因此整体的执行效率依然受限于leader的速度。

本申请提出的异步仲裁方法为软硬件通用型技术，即可广泛应用于任一采用冗余实例的场景。下面从硬件和软件示例性示出了两种应用场景，应理解，本申请实施的场景并不局限于下列场景。

请参见图3，图3是本申请实施例提供的一种应用场景的示意图。如图3所示，该应用场景可以包括M个一级中央处理器(CPU)，M为大于1的整数；每一个CPU包括三个核心处理器(core)，每一个core用于执行一个冗余OS实例，即共包括3M个冗余OS实例；每一个CPU包括一个仲裁器，该仲裁器用于对该CPU中的冗余OS实例进行同步点仲裁。

其中，该应用场景还可以包括用于向CPU发送输入的外部设备(简称外设)，以及若干个二级微处理器(Microcontroller)，图3中示例性示出了两个。应理解，该应用场景还可以包括三级处理器等其他处理器，此处不作限定。

在一种实现中，外设可以复制M份输入至一级CPU，由里面各个执行Core运行的OS冗余实例进行业务处理。一级CPU中的各OS冗余实例到达一轮同步点后经由一级CPU的仲裁器进行多模同步仲裁，如识别错误则进行纠错，最后，一个CPU从3个冗余实例中确定一个正确的一级仲裁结果，进而，分别向若干个二级Microcontroller输出该一级仲裁结果。则二级Microcontroller可以接收到M个一级仲裁结果。

进而，二级Microcontroller的仲裁器对M个一级仲裁结果进行二次仲裁，如识别错误则进行纠错。

本申请实施例中，一级CPU中的OS冗余实例在执行至同步点时通过异步仲裁，使OS冗余实例到达同步点时不再忙等。

本申请实施例中，还可以在仲裁器中新增纠错模块，当异步仲裁识别到错误OS冗余实例，则对其进行回滚纠错。

请参见图4，图4是本申请实施例提供的另一种应用场景的示意图。如图4所示，用户态应用进行多模执行，进程APP1-APPM为其冗余实例，即共有M个APP冗余实例，M为大于1的整数。

图4示例性示出了两个同步点仲裁的过程，其中，第一个同步点在系统调用前(或者获取C库函数后)：APP冗余实例在用户态中运行至进行系统调用时，从C库中获取调用的库函数，并在陷入OS前进行同步等待，直到所有APP冗余实例均到达本轮同步点。所有APP冗余实例完成同步等待后，C库中的仲裁模块对所有APP冗余实例的输入进行一致性比对，通过后即进入OS分别执行原系统调用。

第二个同步点在系统调用向用户态应用返回结果前：各个APP冗余实例完成本次系统调用后，从OS返回C库函数的输出值，并进行同步等待所有APP冗余实例完成OS流程。进而，对所有APP冗余实例进行输出值的一致性仲裁。在所有APP冗余实例的输出值一致性仲裁通过后，再将该输出值返回至用户态应用，并由用户态APP冗余实例进行下一轮执行。

本申请实施例中，所有APP冗余实例在到达同步点后可以进行仲裁数据和/或CKPT数据的保存，然后继续执行，不需要在同步点位置等待所有APP冗余实例执行至该同步点位置。

请参考图5，图5是本申请实施例提供的一种异步仲裁方法的流程图。该方法可以包括以下部分或全部步骤。

S101：开始执行N个冗余实例，N为大于1的整数。

在一些实施例中，电子设备中包括N个冗余实例，这N个冗余实例可以是经同一个实例复制得到的，也即是说，N个冗余实例对应的代码实现相同。

可选地，N个冗余实例可以是同时开始运行的。例如，电子设备可以向N个冗余实例同时输入相同的输入，同时执行该N个冗余实例。

在一种可能的实现中，电子设备执行N个冗余实例的具体过程可以参见以下步骤S102至S105的全部或部分步骤：

S102：在第i个冗余实例运行至同步点时停止执行第i个冗余实例，记录第i个冗余实例当前的输出结果，得到第i个仲裁数据，i为不大于N的正整数。

可选地，仲裁数据还可以包括业务输入参数、OS结果输出等。

在一种可能的实现中，冗余实例为应用实例，第i个应用实例运行至调用库函数或库函数返回数据时停止执行第i个应用实例，记录第i个应用实例当前的系统调用号、输入参数和输出参数中的至少一个，得到第i个仲裁数据。

以图4的场景为例，假设同步点可以为系统调用C库函数前，则第i个冗余实例当前的输出结果可以为C库函数的输入参数，第i个仲裁数据包括C库函数的输入参数和系统调用号等；假设同步点为系统调用C库函数后，则第i个冗余实例当前的输出结果可以为C库函数的输出参数，第i个仲裁数据包括C库函数的输出参数和系统调用号等。具体可以参见图11和图12的实施例的相关内容，此处暂不展开。

S103：保存第i个仲裁数据。

可选地，可以将第i个仲裁数据保存至共享内存(Shared Memory)或圆形内存(Ring Buffer)，本申请实施例对存储位置不做限定，可以根据实际应用确定。

可选地，在第i个冗余实例是最后一个运行至同步点时的冗余实例时，不保存第i个仲裁数据。

可选的，在第i个冗余实例是最后一个运行至同步点时的冗余实例时，可以直接执行步骤S102。

在本申请的一些实施例中，还可以保存第i个冗余实例在同步点的检查点CKPT数据，第i个冗余实例在同步点的CKPT数据用于恢复第i个冗余实例在同步点的数据状态。

在一些实施例中，可以在保存第i个冗余实例的仲裁数据后，对第i个冗余实例进行checkpoint，即记录第i个冗余实例在当前同步点的CKPT数据。其中，可以是基于预设类型的数据进行记录的，具体数据类型可以基于实际冗余实例确定；CKPT数据用于恢复至当前同步点的数据状态。

在一种可能的实现中，冗余实例为应用实例，checkpoint的方式包括但不限于原APP阻塞、复制(fork)并阻塞子APP、记录APP完整状态数据等。其中，原APP阻塞即为暂停执行应用实例，本申请实施例中可以部分采用原APP阻塞；复制(fork)并阻塞子APP是指fork当前的应用实例(可以称为原APP)，fork的应用实例即为子APP，不执行子APP，继续原APP；记录APP完整状态数据。即是保存当前的应用实例从开始运行至当前同步点的运行过程中的所有数据。

在一种可能的实现中，冗余实例为冗余硬件执行的OS冗余实例，checkpoint的方式包括但不限于记录OS完整状态数据等，其中，OS完整状态数据包括OS冗余实例从开始运行至当前同步点的所有数据，例如OS冗余实例运行占用的内存数据内容、执行OS冗余实例的设备状态数据，以及OS冗余实例运行过程中在寄存器中存储的数据以及该寄存器的状态数据等。

可选地，在识别到第i个冗余实例的仲裁数据与保存的仲裁数据相同时，可以不保存第i个冗余实例的CKPT数据。

可选地，可以不获取和保存N个冗余实例中最后一个运行至同步点的实例的CKPT数据。

S104：在保存第i个仲裁数据后，执行第i个冗余实例的同步点后的部分。

在一些实施例中，若第i个冗余实例为第一个运行至同步点的实例，则可以在保存第i个仲裁数据和第i个冗余实例的CKPT数据后，执行第i个冗余实例的同步点后的部分。若第i个冗余实例为第一个运行至同步点的实例，则可以在得到第i个仲裁数据后执行步骤S102，之后，执行第i个冗余实例的同步点后的部分，不需要对第i个冗余实例进行checkpoint，也不需要保存第i个仲裁数据或第i个冗余实例的CKPT数据。若第i个冗余实例不是第一个和最后一个运行至同步点的实例，则可以保存第i个仲裁数据，并根据规则确定是否保存第i个冗余实例的CKPT数据，之后执行第i个冗余实例的同步点后的部分。

S105：在得到N个仲裁数据后，从N个仲裁数据中确定目标仲裁数据，目标仲裁数据对应的冗余实例为在同步点正确的冗余实例。

可选地，将N个仲裁数据中个数最多的仲裁数据确定为目标仲裁数据；或，将N个仲裁数据中个数大于预设个数的仲裁数据确定为目标仲裁数据。

示例性的，预设个数可以为N/2，即是，若该冗余实例的仲裁数据的个数超过冗余实例总数的一半，则将该冗余实例确定为正确冗余实例。例如，冗余实例一共有5个，3个冗余实例的仲裁数据相同，则3个冗余实例的仲裁数据为目标仲裁数据，这3个冗余实例为正确冗余实例。

示例性的，在N为2的情况下，可以基于预设判断规则对两个仲裁数据进行判断，从两个仲裁数据中确定目标仲裁数据。例如仲裁数据中的当前输出结果超过预设数据范围则确定该仲裁数据非目标仲裁数据等，本申请实施例对预设判断规则不作限定。

在一些实施例中，可以基于正确的冗余实例在同步点的CKPT数据，将错误的冗余实例恢复至正确的冗余实例在同步点的状态，从同步点处执行恢复后的冗余实例。

例如第i个仲裁数据不为目标仲裁数据，即第i个冗余实例为错误冗余实例；在从N个仲裁数据中确定目标仲裁数据后，可以基于正确的冗余实例在同步点的CKPT数据，恢复第i个冗余实例；从同步点处执行恢复后的第i个冗余实例。

在一种可能的实现方式中，最后一个运行至同步点的冗余实例在得到仲裁数据后，不执行保存该仲裁数据，也不执行checkpoint；而是从内存中取出保存的仲裁数据，再N个仲裁数据中确定目标仲裁数据，目标仲裁数据对应的冗余实例为在同步点正确的冗余实例。假设是将N个仲裁数据中个数最多的冗余实例确定为目标仲裁数据，则在最慢实例之前保存过与最慢实例的仲裁数据相同的冗余实例，可以将该冗余实例的CKPT数据用于纠错回滚。可选地，最慢实例在得到仲裁数据后可以继续执行；也可以等待全员仲裁结果后，在出现故障时进行纠错再继续执行，或在无故障时继续执行。

在本申请的一些实施例中，在第i个冗余实例与N个冗余实例中运行最慢的冗余实例的执行差距大于预设差距时，可以暂停执行第i个冗余实例。例如，冗余实例中同步点的个数为至少两个，第i个冗余实例的仲裁数据存储在预设存储空间；在预设存储空间被占满时，暂停执行第i个冗余实例。

请参考图6，图6是本申请实施例提供的另一种异步仲裁方法的流程图。该方法可以包括以下部分或全部步骤。

S201：开始执行N个冗余实例。

其中，N为大于1的整数；冗余实例包括至少一个同步点。

可选地，N个冗余实例是由一个实例复制得到的。

在一些实施例中，电子设备向N个冗余实例输入相同的输入，同时执行该N个冗余实例。

在一种可能的实现中，冗余实例包括多个同步点，则在每一个同步点N个冗余实例均要执行以下S202至S209所示的方法。

请参见图7，图7是本申请实施例提供的一种多个冗余实例的执行示意图。图7示例性以带箭头的直线代表冗余实例，以及示例性示出了N个冗余实例和M个同步点，N和M均为大于1的整数。如图7所示，N个冗余实例开始执行，在N个冗余实例中的任一实例运作至同步点1时，执行以下步骤S202，基于步骤S202的结果执行下文中步骤S203至S209中的步骤，详见可参见图6的流程图。应理解，N个冗余实例在M个同步点时的仲裁纠错过程与N个冗余实例在同步点1的仲裁纠错过程一致，不再赘述。

S202：在每一个冗余实例运行至同步点时，判断该冗余实例是否第一个运行至同步点；若是，则依次执行S203至S205；若否，则执行S206。

在一些实施例中，电子设备可以在该冗余实例运行同步点时，检测N个冗余实例其他冗余实例的执行状态，确定该冗余实例是否为第一个运行至同步点的冗余实例。应理解，本申请实施例对判断该冗余实例是否第一个运行至同步点的方法不作限定。

若该冗余实例是第一个运行至同步点的实例，则电子设备可以保存该冗余实例在该同步点的仲裁数据；保存该冗余实例在该同步点的CKPT数据；在保存上述仲裁数据和CKPT数据后，电子设备继续执行该冗余实例的同步点后的部分。具体过程可以参见S203至S205的详细内容。

若该冗余实例不是第一个运行至同步点的实例，则电子设备可以判断该冗余实例是否最后一个运行至同步点，再根据是否为最后一个运行至同步点的实例的情况分别进行处理。具体过程可以参见S206的详细内容。

S203：保存该冗余实例在该同步点的仲裁数据。

在一些实施例中，电子设备可以基于第一记录规则记录冗余实例的关键状态数据，得到该冗余实例在该同步点的仲裁数据，进而，保存该仲裁数据。其中，关键状态数据包括冗余实例执行至同步点的输出。

可选地，不同实例的第一记录规则可以不同，也就是说不同实例的关键状态数据对应的内容可以不同，即仲裁数据对应的内容可以不同。其中，不同实例可以是指功能不同或输入输出不同的实例，例如图3和图4为不同的应用场景，该两个场景中的冗余实例可以为不同的实例，这两个实施例中的仲裁数据的具体内容可以不同。应理解，上述N个冗余实例为相同的实例，上述N个冗余实例对应的第一记录规则是相同的，但是由于上述N个冗余实例在执行过程可能因为某些因素导致数据出错，所以N个冗余实例记录的同一内容的数据可能不同。

S204：保存该冗余实例在该同步点的CKPT数据。

在一些实施例中，电子设备可以基于第二记录规则，对冗余实例进行checkpoint，得到该冗余实例在该同步点的CKPT数据，进而，保存CKPT数据。其中，CKPT数据用于N个冗余实例中的任一冗余实例恢复至该冗余实例在该同步点的数据状态。

可选地，不同实例的第二记录规则可以不同，也就是说不同实例的CKPT数据对应的内可以不同。应理解，上述N个冗余实例为相同的实例，上述N个冗余实例对应的第二记录规则是相同的，但是由于上述N个冗余实例在执行过程可能因为某些因素导致数据出错，所以N个冗余实例记录的同一内容的数据可能不同。

S205：执行该冗余实例的同步点后的部分。

如图7所示，左侧的冗余实例在运行至同步点时进行右侧的仲裁纠错，在仲裁纠错结束后又返回至同步点的位置，继续执行冗余实例以下的内容。

S206：判断该冗余实例是否最后一个运行至同步点；若是，则执行S208，若否，则依次执行S203和执行S207。

在一些实施例中，电子设备可以在该冗余实例运行同步点时，检测N个冗余实例其他冗余实例的执行状态，确定该冗余实例是否为最后一个运行至同步点的冗余实例。应理解，本申请实施例对判断该冗余实例是否最后一个运行至同步点的方法不作限定。

若该冗余实例是N个冗余实例中最后一个运行至同步点的实例，则电子设备将该冗余实例的仲裁数据与在该同步点保存的仲裁数据进行全员仲裁，确定N个仲裁数据是否通过全员仲裁。在全员仲裁通过时，不需要进行纠错回滚(即不需要执行S209)，在全员仲裁不通过时，不需要进行纠错回滚(即需要执行S209)。具体过程可以参见步骤S208的相关内容。

若该冗余实例不是N个冗余实例中第一个和最后一个运行至同步点的实例，则电子设备将该冗余实例的仲裁数据与在该同步点保存的仲裁数据进行预仲裁，确定是否需要保存该冗余实例的CKPT数据。在通过预仲裁时，不保存该冗余实例的CKPT数据，在通过预仲裁时，保存该冗余实例的CKPT数据。具体过程可以参见步骤S207的相关内容。

S207：判断该冗余实例预仲裁是否通过；若是，则执行S205，若否，则依次执行S204和S205。

在一些实施例中，电子设备可以基于保存的该同步点的仲裁数据和该冗余实例的仲裁数据，确定该冗余实例预仲裁是否通过；在保存的仲裁数据中存在一个仲裁数据与该冗余实例的仲裁数据相同时，确定该冗余实例预仲裁通过，即不需要保存该冗余实例的CKPT数据；在保存的仲裁数据中存在一个仲裁数据与该冗余实例的仲裁数据不相同时，确定该冗余实例预仲裁不通过，即需要保存该冗余实例的CKPT数据。

S208：判断保存的该同步点的仲裁数据与该冗余实例的仲裁数据是否通过全员仲裁，若是，则执行S205，若否，则依次执行S209。

其中，保存的该同步点的仲裁数据与该冗余实例的仲裁数据即为上述N个冗余实例的在该同步点的N个仲裁数据。

在一些实施例中，电子设备在上述N个仲裁数据相同时，确定上述N个仲裁数据通过全员仲裁，则不需要进行纠错回滚(即不需要执行S209)；在上述N个仲裁数据存在两个仲裁数据不同时，确定全员仲裁不通过全员仲裁，需要进行纠错回滚(即需要执行S209)。

应理解，若上述N个仲裁数据通过全员仲裁，也即是，N个冗余实例在该同步点无故障情况出现。

请参见图8A，图8A是本申请实施例提供的一种N个冗余实例在同步点无故障时的示意图。图8A示例性的以5个冗余实例为例进行说明，带箭头的直线代表冗余实例，箭头方向代表时间轴方向，这5个冗余实例分别为实例a、实例b、实例c、实例d和实例e；灰色矩形块用于代表同步点，图8A中示例性示出了同步点1和同步点2。

如图8A所示，实例a为第一个运行至同步点1的实例，电子设备保存了实例a的仲裁数据，电子设备对实例a进行checkpoint，保存了该实例a的CKPT数据；实例b、实例d和实例e不是第一个运行至同步点1的冗余实例，也不是最后一个运行至同步点1的冗余实例，则电子设备对实例b、实例d和实例e进行预仲裁，由于实例b、实例d和实例e的仲裁数据均与该实例a的仲裁数据相同，因此实例b、实例d和实例e均通过预仲裁，不需要保存CKPT数据；实例c为最后一个运行至同步点1的冗余实例，则将5个冗余实例在同步点1的仲裁数据进行对比，由于这5个冗余实例的仲裁数据相同，即该5个冗余实例通过全员仲裁，即在该5个冗余实例在该同步点1无故障情况出现。

如图8A所示，在采用预仲裁后，无故障场景下的一轮同步点仅需进行一次CKPT。

S209：从N个冗余实例中确定正确实例；基于正确实例的CKPT数据对错误实例进行纠错回滚。

在一些实施例中，电子设备基于上述N个仲裁数据，从N个冗余实例中确定正确实例；基于正确实例的CKPT数据对错误实例进行纠错回滚。

可选的，电子设备可以将将N个仲裁数据中个数最多的仲裁数据确定为目标仲裁数据；或，将N个仲裁数据中个数大于预设个数的仲裁数据确定为目标仲裁数据；进而，将目标仲裁数据的冗余实例确定为正确实例。

请参见图8B，图8B是本申请实施例提供的一种N个冗余实例在同步点存在故障时的示意图。图8B示例性的以5个冗余实例为例进行说明，带箭头的直线代表冗余实例，箭头方向代表时间轴方向，这5个冗余实例分别为实例a、实例b、实例c、实例d和实例e；灰色矩形块用于代表不存在故障的同步点，斜线矩形块用于代表存在故障的同步点，图8B中示例性示出了同步点1和同步点2。

如图8B所示，实例a为第一个运行至同步点1的实例，电子设备保存了实例a的仲裁数据，电子设备对实例a进行checkpoint，保存了该实例a的CKPT数据。

实例b、实例d和实例e不是第一个运行至同步点1的冗余实例，也不是最后一个运行至同步点1的冗余实例，则电子设备对实例b、实例d和实例e进行预仲裁，由于实例b仲裁数据均与该实例a的仲裁数据相同，因此实例b不通过预仲裁，电子设备对实例b进行checkpoint，保存了该实例b的CKPT数据；由于实例d和实例e的仲裁数据均与该实例a的仲裁数据相同，因此实例d和实例e均通过预仲裁，不需要保存CKPT数据。

实例c为最后一个运行至同步点1的冗余实例，则将5个冗余实例在同步点1的仲裁数据进行对比，由于实例a和实例c的仲裁数据(简称为仲裁数据1)相同，实例b、实例d和实例e的仲裁数据(简称为仲裁数据2)相同，仲裁数据1和仲裁数据2不同，仲裁数据2的个数大于仲裁数据1的个数，因此电子设备可以确定5个冗余实例不通过全员仲裁，即在该5个冗余实例在该同步点1出现故障情况，其中，仲裁数据2为正确的仲裁数据(即目标仲裁数据)，实例a和实例c为在同步1出现故障的实例，实例b、实例d和实例e为在同步点1正确的正确实例。

进而，电子设备可以基于实例b在同步点1的CKPT数据，将实例a和实例c回滚至实例b在同步点1的数据状态。图8B示例性示出了在回滚时，实例a位于同步点2的位置，在其他实例中，实例a可能运行至其他位置，此处不作限定。

以下通过介绍上述两个应用场景对应的实施例，对上图5和图6的异步仲裁方法进行详细说明。

首先，介绍硬件冗余的应用场景下的异步仲裁方法。

该异步仲裁方法应用于多OS冗余实例的异步仲裁装置中，该异步仲裁装置包括多个核心处理器(core)和至少一个异步仲裁器，其中，每一个核心处理器用于执行一个OS冗余实例，OS冗余实例为冗余实例。

请参考图9，图9为本申请实施例提供的又一种异步仲裁方法的流程图。该方法可以包括以下部分或全部步骤。

S301：多个核心处理器分别执行OS冗余实例。

可选地，多个核心处理器可以位于同一个中央处理器(CPU)中。

S302：核心处理器在OS冗余实例运行至同步点时，保存该OS冗余实例在该同步点的仲裁数据。

可选地，执行S302的核心处理器可以为非最慢OS冗余实例的核心处理器，也即是说，该核心处理器可以判断其执行的OS冗余实例是否为最后一个运行至同步点的OS冗余实例，若是，则不执行S302，若否，则执行S302。

可选地，该同步点可以为OS输出业务执行结果时。

在一些实施例中，核心处理器可以将当前同步点的关键状态数据存至共享内存(Shared Memory)作为该同步点的仲裁数据，其中，关键状态数据包括但不限于业务入参、OS结果输出等。

请参见图10，图10是本申请实施例提供的一种管理仲裁数据的示意图。如图10所示，带箭头的直线用于代表OS冗余实例，图中示例性示出了3个OS冗余实例，分别为OS1、OS2和OS3；矩形方块用于代表共享内存，带箭头的实线用于指示存入仲裁数据；带数据的矩形用于代表同步点，图中示例性示出了同步点1和同步点2。在同步点1对应的全员仲裁1中，由于OS1和OS2为非最慢运行至该同步点的实例，则执行OS1的核心处理器将OS1的仲裁数据存入共享内存中，执行OS2的核心处理器将OS2的仲裁数据存入共享内存中；在同步点2对应的全员仲裁2中，由于OS2和OS3为非最慢运行至该同步点的实例，则执行OS2的核心处理器将OS2的仲裁数据存入共享内存中，执行OS3的核心处理器将OS3的仲裁数据存入共享内存中。

S303：核心处理器对OS冗余实例进行预仲裁并按需进行CKPT，该OS冗余实例为非最慢OS冗余实例。

在一些实施例中，核心处理器可以在保存该OS冗余实例在该同步点的仲裁数据后，对OS冗余实例进行预仲裁。

其中，预仲裁具体可以是将OS冗余实例的仲裁数据和本轮CKPT实例的仲裁数据一一比较，如果不存在任何CKPT实例的仲裁数据和本OS的仲裁数据一致，则进行CKPT。其中，本轮CKPT实例为在该同步点进行CKPT的实例。需要说明的是，此处为方便描述，将进行过CKPT的实例称为CKPT实例。

可选地，CKPT方式包括但不限于记录OS完整状态数据(包括内存、设备、寄存器状态)等。

在一些实施例中，基于N模冗余可支持的最坏情况为N/2-1个错误实例，即前一半到达的实例一定有正确状态，因此为进一步优化CKPT代价，N模冗余中仅需前一半实例(N/2+1)需进行预仲裁+CKPT流程。完成仲裁数据保存/预仲裁/CKPT后，OS冗余实例即可继续执行，无需忙等。

可选地，首个OS冗余实例无需预仲裁，直接进行CKPT。也就是说，核心处理器可以判断其执行的OS冗余实例是否为第一个运行至同步点的OS冗余实例，若是，则直接进行CKPT，若否，则进行预仲裁，再根据预仲裁的结果确定是否进行CKPT。

S304：核心处理器保存CKPT数据。

S305：异步仲裁器基于所有OS冗余实例的仲裁数据进行全员仲裁，确定正确实例和错误实例。

在一些实施例中，异步仲裁器可以在得到执行最慢至同步点的OS冗余实例的仲裁数据后，从共享内存取出本轮所有OS冗余实例的仲裁数据并进行全体比较。如图10所示，该带箭头的虚线用于代表读取仲裁数据，异步仲裁器可以在OS3运行至同步点1时，从共享内存取出本轮所有OS冗余实例的仲裁数据，即OS1和OS2的仲裁数据，将OS1、OS2和OS3的仲裁数据进行全员仲裁；在OS1运行至同步点2时，从共享内存取出本轮所有OS冗余实例的仲裁数据，即OS2和OS3的仲裁数据，将OS1、OS2和OS3的仲裁数据进行全员仲裁。

可选地，如有超过一半实例达成一致，即N模冗余中存在N/2+1的仲裁数据达成共识，则视达成共识的冗余实例为正确，并进入下一轮同步点；而仲裁数据未达成共识的实例视为错误，需进行回滚。

S306：异步仲裁器向错误实例对应的核心处理器发送纠错消息，该消息包括用于指示正确实例的指示消息。

S307：错误实例对应的核心处理器基于正确实例的CKPT数据或最慢实例的状态数据进行纠错回滚。

在一些实施例中，若正确实例为CKPT实例，则将错误实例的状态数据(如内存、设备、寄存器状态等)恢复至正确CKPT实例状态；若正确实例为最慢OS冗余实例，则将错误实例的状态数据恢复至最慢OS冗余实例的状态数据。完成回滚纠错后，错误实例继续执行，直至完成本轮同步点，进入下轮同步点。

S308：核心处理器在所有OS冗余实例均成功通过该同步点后，回收仲裁数据和/或CKPT数据。

在一些实施例中，异步仲裁装置在所有OS冗余实例均成功通过一轮同步点后，将本轮消耗的内存进行回收，其中，内存包括存放仲裁数据的保留内存(如图10中共享内存也可以称为Shared Memory)和CKPT数据占用的内存。

可选地，核心处理器在确定所有OS冗余实例均成功通过一轮同步点后，分别从内存中删除其执行的OS冗余实例保存的仲裁数据和CKPT数据。

接下来，介绍针对冗余实例为应用实例的异步仲裁方法。

该方法应用于用户态多模执行，例如，进程APP1-APPM为其冗余实例，M为大于1的整数，可参见图4所示的应用场景的相关介绍。本申请实施例中，当APP冗余实例到达指定同步点，如系统调用时可以在C库对应函数出入口处拦截，并在陷入内核执行系统调用的前后进行异步仲裁方法，可以消除同步忙等的环节。

请参见图11，图11是本申请实施例提供的再一种异步仲裁方法的示意图。该方法可以包括以下部分或全部步骤：

S401：在APP冗余实例运行至同步点时，保存在该同步点的仲裁数据。

可选地，最慢实例可不保存其仲裁数据。

示例性的，APP冗余实例达到系统调用时，将当前关键状态存至共享内存，该当前关键状态即为仲裁数据，该数据包括但不限于系统调用号、出入参等等，共享内存包括但不限于Ring Buffer等。

请参见图12，图12是本申请实施例提供的另一种管理仲裁数据的示意图。如图12所示，带箭头的直线用于代表APP冗余实例，图中示例性示出了3个APP冗余实例，分别为APP1、APP2和APP3；圆环用于代表圆形内存(Ring Buffer)，带箭头的实线用于指示存入仲裁数据；带数据的矩形用于代表同步点，图中示例性示出了同步点1和同步点2。在同步点1对应的全员仲裁1中，由于APP1和APP2为非最慢运行至该同步点的实例，则将APP1的仲裁数据和APP2的仲裁数据存入Ring Buffer中；在同步点2对应的全员仲裁2中，由于APP2和APP3为非最慢运行至该同步点的实例，则将APP2的仲裁数据和APP3的仲裁数据存入Ring Buffer中。

S402：对APP冗余实例进行预仲裁并按需进行CKPT。

在一些实施例中，在APP冗余实例保存仲裁数据后，进行预仲裁。

示例性的，预仲裁具体可以是将APP冗余实例的仲裁数据和本轮CKPT实例的仲裁数据一一比较，如果不存在任何CKPT实例的仲裁数据和该APP冗余实例P的仲裁数据一致，则进行CKPT。其中，进行CKPT的方法包括但不限于原APP阻塞、复制(fork)并阻塞子APP、记录APP完整状态数据等。

在一种实现中，基于N模冗余可支持的最坏情况为N/2-1个错误实例，即前一半到达的实例有正确状态，因此为进一步优化CKPT代价，N模冗余中可以仅将前一半实例(N/2+1)需进行预仲裁+CKPT流程。APP冗余实例在完成仲裁数据保存、预仲裁和CKPT中的至少一个过程后，可继续执行，无需忙等。其中，APP冗余实例执行仲裁数据保存、预仲裁和CKPT的具体过程可以参见上文中的相关内容，此处不再赘述。

可选的，首个APP冗余实例(即第一个运行至同步点的实例)可以不进行预仲裁，直接进行CKPT。

S403：在最慢APP冗余实例执行至同步点时，进行全员仲裁并按需进行回滚纠错。

在一些实施例中，最慢APP冗余实例可以先从共享内存(如图12中Ring Buffer)中取出本轮所有APP冗余实例的仲裁数据并进行全体比较。

如图12所示，该带箭头的虚线用于代表读取仲裁数据，可以在APP3运行至同步点1时，从Ring Buffer取出本轮所有APP冗余实例的仲裁数据，即APP1和APP2的仲裁数据，将APP1、APP2和APP3的仲裁数据进行全员仲裁；在APP1运行至同步点2时，从共享内存取出本轮所有APP冗余实例的仲裁数据，即APP2和APP3的仲裁数据，将APP1、APP2和APP3的仲裁数据进行全员仲裁。

可选的，如有超过一半实例达成一致，即N模冗余中存在N/2+1的仲裁数据达成共识，则视达成共识的冗余实例为正确，并进入下一轮同步点；而仲裁数据未达成共识的实例视为错误，需进行回滚。可以依据全员仲裁的结果，在CKPT实例和最慢实例中挑选出一员正确状态，并将错误APP冗余实例回滚至正确状态。

若正确状态存在于CKPT实例，假设CKPT方式为fork并阻塞子APP，则将错误实例终止并由CKPT实例正在阻塞的子APP替代；若正确状态存在于最慢实例，则将错误实例终止，对最慢APP冗余实例进行fork复制并将其子APP接替原错误APP。完成回滚纠错后，错误实例继续执行，直至完成本轮同步点，进入下轮同步点。

S404：回收存储仲裁数据和CKPT数据的存储资源。

在一些实施例中，在所有APP冗余实例均成功通过一轮同步点后，将该轮消耗的存放仲裁数据的保留内存(如图12中Ring Buffer实现中，读指针越过本轮数据范围)以及CKPT数据占用的内存进行回收，即释放保存仲裁数据和CKPT状态数据的存储空间，供后续同步点使用。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参见图13，图13是本申请实施例提供的一种异步仲裁装置130的结构示意图，该装置130可以为电子设备。当然，该装置130也可以为电子设备中的一个器件，例如芯片或者集成电路等，该装置130可以包括执行单元1301、确定单元1302、保存单元1303、恢复单元1304和暂停单元1305。该异步仲裁装置130用于实现前述任意一个实施例的异步仲裁方法。

在一种可能的实施方式中，该装置包括：

执行单元1301，用于开始执行N个冗余实例，所述N为大于1的整数；i为不大于所述N的正整数；

所述执行单元1301，具体用于：在第i个冗余实例运行至同步点时停止执行所述第i个冗余实例，记录所述第i个冗余实例当前的输出结果，得到第i个仲裁数据；保存所述第i个仲裁数据；在保存所述第i个仲裁数据后，执行所述第i个冗余实例的同步点后的部分；

确定单元1302，用于在得到所述N个仲裁数据后，从所述N个仲裁数据中确定目标仲裁数据，所述目标仲裁数据对应的冗余实例为在所述同步点正确的冗余实例。

在一种可能的实施方式中，所述装置还包括保存单元1303；

所述保存单元1303，用于保存所述第i个冗余实例在同步点的检查点CKPT数据，所述第i个冗余实例在同步点的CKPT数据用于恢复所述第i个冗余实例在同步点的数据状态。

在一种可能的实施方式中，所述装置还包括恢复单元1304；所述恢复单元1304，用于：

基于正确的冗余实例在所述同步点的CKPT数据，恢复所述第i个冗余实例；

从所述同步点处执行恢复后的第i个冗余实例。

在一种可能的实施方式中，所述保存单元1303，还用于：

在识别到所述第i个冗余实例的仲裁数据与保存的仲裁数据相同时，不保存所述第i个冗余实例的CKPT数据。

在一种可能的实施方式中，所述第i个冗余实例是除所述N个冗余实例中最后一个运行至所述同步点的实例之外的实例。

在一种可能的实施方式中，所述确定单元1302，具体用于：

将所述N个仲裁数据中个数最多的仲裁数据确定为所述目标仲裁数据；

或，将所述N个仲裁数据中个数大于预设个数的仲裁数据确定为所述目标仲裁数据。

在一种可能的实施方式中，所述执行单元1301，具体用于：

在一种可能的实施方式中，所述装置还包括暂停单元1305，所述暂停单元1305，用于：

在所述第i个冗余实例与所述N个冗余实例中运行最慢的冗余实例的执行差距大于预设差距时，暂停执行所述第i个冗余实例。

在一种可能的实施方式中，所述冗余实例中同步点的个数为至少两个，所述第i个冗余实例的仲裁数据存储在预设存储空间；所述装置还包括删除单元，所述删除单元，用于删除所述同步点的仲裁数据；

所述暂停单元1305，具体用于在所述预设存储空间被占满时，暂停执行所述第i个冗余实例。

在一种可能的实施方式中，所述冗余实例为应用实例，所述执行单元1301具体用于：

所述第i个应用实例运行至调用库函数或库函数返回数据时停止执行所述第i个应用实例，记录所述第i个应用实例当前的系统调用号、输入参数和输出参数中的至少一个，得到第i个仲裁数据。

需要说明的是，各个单元的实现还可以对应参照图5、图6、图9和图11所示的实施例的相应描述。该异步仲裁装置130可以为上文中的电子设备。

可以理解的，本申请各个装置实施例中，对多个单元或者模块的划分仅是一种根据功能进行的逻辑划分，不作为对装置具体的结构的限定。在具体实现中，其中部分功能模块可能被细分为更多细小的功能模块，部分功能模块也可能组合成一个功能模块，但无论这些功能模块是进行了细分还是组合，装置130在配对的过程中所执行的大致流程是相同的。通常，每个单元都对应有各自的程序代码(或者程序指令)，这些单元各自对应的程序代码在处理器上运行时，使得该单元受处理器的控制而执行相应的流程从而实现相应功能。

本申请实施例还提供了一种电子设备，电子设备包括一个或多个处理器和一个或多个存储器；其中，一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述实施例描述的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述实施例描述的方法。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当指令在电子设备上运行时，使得电子设备执行上述实施例描述的方法。

可以理解的是，本申请的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。

所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本申请技术方案的实施例而已，并非用于限定本申请的保护范围。凡根据本申请的揭露，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种异步仲裁方法，其特征在于，所述方法包括：

开始执行N个冗余实例；所述N为大于1的整数；

在第i个冗余实例运行至同步点时停止执行所述第i个冗余实例，记录所述第i个冗余实例当前的输出结果，得到第i个仲裁数据；所述i为不大于所述N的正整数；

保存所述第i个仲裁数据；

在保存所述第i个仲裁数据后，执行所述第i个冗余实例的同步点后的部分；

在得到所述N个仲裁数据后，从所述N个仲裁数据中确定目标仲裁数据，所述目标仲裁数据对应的冗余实例为在所述同步点正确的冗余实例。
根据权利要求1所述的方法，其特征在于，在所述保存所述第i个仲裁数据之后，执行所述第i个冗余实例的同步点后的部分之前，所述方法还包括：

保存所述第i个冗余实例在同步点的检查点CKPT数据，所述第i个冗余实例在同步点的CKPT数据用于恢复所述第i个冗余实例在同步点的数据状态。
根据权利要求1或2所述的方法，其特征在于，所述第i个仲裁数据不为目标仲裁数据；在所述从所述N个仲裁数据中确定目标仲裁数据后，所述方法还包括：

基于正确的冗余实例在所述同步点的CKPT数据，恢复所述第i个冗余实例；

从所述同步点处执行恢复后的第i个冗余实例。
根据权利要求2或3所述的方法，其特征在于，所述保存所述第i个冗余实例在同步点的检查点CKPT数据，包括：

在识别到所述第i个冗余实例的仲裁数据与保存的仲裁数据相同时，不保存所述第i个冗余实例的CKPT数据。
根据权利要求2至4任一项所述的方法，其特征在于，所述第i个冗余实例是所述N个冗余实例中除最后一个运行至所述同步点的实例之外的实例。
根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

在所述第i个冗余实例与所述N个冗余实例中运行最慢的冗余实例的执行差距大于预设差距时，暂停执行所述第i个冗余实例。
根据权利要求6所述的方法，其特征在于，所述冗余实例中同步点的个数为至少两个，所述第i个冗余实例的仲裁数据存储在预设存储空间；从所述N个仲裁数据中确定目标仲裁数据之后，所述方法还包括：删除所述同步点的仲裁数据；

所述暂停执行所述第i个冗余实例，包括：在所述预设存储空间被占满时，暂停执行所述第i个冗余实例。
根据权利要求1至7任一项所述的方法，其特征在于，所述保存所述第i个仲裁数据，包括：

在所述第i个冗余实例是除最后一个运行至所述同步点之外的实例时，保存所述第i个仲裁数据；

所述方法还包括：

在得到最后一个运行至所述同步点时的冗余实例的仲裁数据时，执行所述从所述N个仲裁数据确定目标仲裁数据的步骤。
一种异步仲裁装置，其特征在于，所述装置包括N个处理器和仲裁器；

所述N个处理器分别用于，执行实例；在所述实例运行至同步点时将所述同步点的仲裁数据输出至所述仲裁器，所述仲裁数据包括当前的输出结果；在输出所述同步点的仲裁数据后执行所述同步点后的处理步骤；

所述仲裁器，用于在接收到所述处理器发送的仲裁数据时保存所述仲裁数据；在接收到所述N个仲裁数据时从所述N个仲裁数据中确定目标仲裁数据。
根据权利要求9所述的装置，其特征在于，所述处理器，还用于在处理至所述同步点时将所述同步点的检查点CKPT数据发送至所述仲裁器；

所述仲裁器，还用于将所述目标仲裁数据对应的CKPT数据发送至所述非目标仲裁数据对应的处理器；

所述非目标仲裁数据对应的处理器，还用于基于所述目标仲裁数据对应的CKPT数据恢复在所述同步点的数据状态。
一种异步仲裁装置，其特征在于，所述装置包括：

执行单元，用于开始执行N个冗余实例，所述N为大于1的整数；

所述执行单元，还用于：在第i个冗余实例运行至同步点时停止执行所述第i个冗余实例，记录所述第i个冗余实例当前的输出结果，得到第i个仲裁数据；保存所述第i个仲裁数据；在保存所述第i个仲裁数据后，执行所述第i个冗余实例的同步点后的部分；所述i为不大于所述N的正整数；

确定单元，用于在得到所述N个仲裁数据后，从所述N个仲裁数据中确定目标仲裁数据，所述目标仲裁数据对应的冗余实例为在所述同步点正确的冗余实例。
根据权利要求11所述的方法，其特征在于，所述装置还包括保存单元；

所述保存单元，用于保存所述第i个冗余实例在同步点的检查点CKPT数据，所述第i个冗余实例在同步点的CKPT数据用于恢复所述第i个冗余实例在同步点的数据状态。
根据权利要求11或12所述的方法，其特征在于，所述装置还包括恢复单元；所述恢复单元，用于：

基于正确的冗余实例在所述同步点的CKPT数据，恢复所述第i个冗余实例；

从所述同步点处执行恢复后的第i个冗余实例。
根据权利要求12或13所述的方法，其特征在于，所述保存单元，还用于：

在识别到所述第i个冗余实例的仲裁数据与保存的仲裁数据相同时，不保存所述第i个冗余实例的CKPT数据。
根据权利要求12至14任一项所述的方法，其特征在于，所述第i个冗余实例是所述N个冗余实例中除最后一个运行至所述同步点的实例之外的实例。
根据权利要求11至15任一项所述的方法，其特征在于，所述装置还包括暂停单元，所述暂停单元，用于：

在所述第i个冗余实例与所述N个冗余实例中运行最慢的冗余实例的执行差距大于预设差距时，暂停执行所述第i个冗余实例。
根据权利要求16所述的方法，其特征在于，所述冗余实例中同步点的个数为至少两个，所述第i个冗余实例的仲裁数据存储在预设存储空间；所述装置还包括删除单元，所述删除单元，用于删除所述同步点的仲裁数据；

所述暂停单元，具体用于在所述预设存储空间被占满时，暂停执行所述第i个冗余实例。
根据权利要求11至17任一项所述的方法，其特征在于，所述执行单元具体用于：在所述第i个冗余实例是除最后一个运行至所述同步点之外的实例时，保存所述第i个仲裁数据；在得到最后一个运行至所述同步点时的冗余实例的仲裁数据时，执行所述从所述N个仲裁数据确定目标仲裁数据的步骤。
一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-8中任一项所述的方法。
一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-8中任一项所述的方法。