CN119907850A

CN119907850A - 训练和使用用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的构思

Info

Publication number: CN119907850A
Application number: CN202380061303.1A
Authority: CN
Inventors: J·S·基尔奇; S·K·埃斯温; K·M·辛德勒; P·查布拉; J·W·施米德; M·纳博; K·J·莫赫
Original assignee: Henghe Yinslico Biotechnology Co ltd
Current assignee: Henghe Yinslico Biotechnology Co ltd
Priority date: 2022-06-24
Filing date: 2023-06-22
Publication date: 2025-04-29
Also published as: EP4296350A1; US20250384951A1; WO2023247721A1

Abstract

示例涉及训练和使用用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的构思，并且尤其涉及训练用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的方法、装置和计算机程序，以及使用这样的经训练的至少一个机器学习模型的各种方法。训练用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的方法包括基于训练数据来训练该机器学习模型。该训练数据基于生物有机体的多个克隆的实验数据。该训练数据包括基于单个克隆的实验数据的训练数据子集。至少一个机器学习模型的第一分量使用训练数据来训练，其中第一分量表示生物有机体的通用动力学行为。至少一个机器学习模型的第二分量使用训练数据子集来训练，第二分量表示生物有机体的特定于克隆的动力学行为。

Description

训练和使用用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的构思

技术领域

示例涉及训练和使用用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的构思，并且尤其涉及训练用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的方法、装置和计算机程序，以及使用这样的经训练的至少一个机器学习模型的各种方法。

背景技术

如今，数字孪生(Digital Twin)已广泛应用于各种工业领域(例如汽车行业)，因为数字孪生可显著改善和加快机器、工业产品和供应链的设计、优化和控制。凭借其预测能力，数字孪生可用于直接干预生产或者预测并改进资产和供应链的整体行为。这有助于监测和优化过程并且进行控制，以提高过程的稳健性、产品收率和质量。

尽管有这些优势，但数字孪生很少应用于生物技术生产过程。主要原因在于数字孪生对不同有机体和细胞系的有限适用性、过程设置和规模以及对测量数据的高要求。例如，在制造期间，只能获得有限数量的数据。通常，并非先前用于生成具有高预测质量的数字孪生的所有所需测量实体都可用。测量噪声可能会进一步限制模型的预测质量，而该预测质量对于稳健的过程控制而言正是所期望的。

尽管过去已经开发了生物技术过程的数学模型，但这些模型大多数不能处理不同的应用情况，例如克隆、产品和过程形式(process format)方面。对于每一种新的应用情况，都需要生成新的数据和模型。这导致了大量的资源和时间成本。另一方面，由于缺乏合适的模型或软件平台来实现数据的自动整合以及高质量模型的生成和应用，因此过程优化主要是通过简单的实验设计和经由葡萄糖曲线以及诸如pH和温度之类的其他量的控制来完成的。这种模型的适用性有限，因为对于例如在制造期间观察到的数据减少和质量降低的情况，预测质量可能被认为是不够的。因此，其通常不能用于过程监测和稳健控制。

可能期望一种用于生物技术生产过程的数字孪生的改进构思。

发明内容

该期望由独立权利要求的主题来解决。

本公开的各种实施例是基于以下发现，即通过使用在多个克隆、细胞系和/或过程形式之间的实验数据来生成广义数字孪生，可以克服缺乏生成数字孪生所必需的实验数据的问题，所述广义数字孪生然后可被额外地调整为细胞系的特定克隆。由于可获得的附加实验数据，这样的数字孪生可以比特定于细胞系、克隆和过程形式的较小数字孪生产生更高的预测质量。在所提出的构思中，这样的数字孪生的生成包括训练至少一个机器学习模型，该至少一个机器学习模型包括：第一分量(例如，第一机器学习模型或神经网络的第一多层)，该第一分量经过训练以对被建模的生物有机体的通用(即，非特定于克隆的)动力学方面进行建模；以及第二分量(例如，第二机器学习模型或神经网络的第二多层)，该第二分量经过训练以对生物有机体的特定于克隆的方面进行建模。对于该训练，使用训练数据，其中仅使用特定于克隆的子集来训练特定于克隆的第二分量。一旦经过训练，经训练的参数可以被再次用于新数据集的整合，使得所述数字孪生可以被扩展和调整到特定克隆，同时降低计算成本并减少数据需求。这些数字孪生可离线用于过程改进或优化(包括克隆选择、平台培养基设计)，也可在线用于监测和控制生物技术过程，以提高过程稳健性、性能和产品质量。因此，所提出的数字孪生例如可以在制造期间用于改进产品质量或用于过程监测以及控制，因为尽管存在测量的不确定性，但其高预测质量可以改进相关系统状态的估计。

因此，所提出的构思可以通过再次使用来自先前培养运行的数据和模型参数来解决上述限制中的一个或多个，以便降低为新应用情况(包括不同克隆或过程规模)生成数字孪生的数据需求，同时保持高预测质量。可以经由将通用机器学习模型和特定于克隆的机器学习模型(即，上述第一分量和第二分量)(例如，神经网络)与代谢功能以及反应器模型组合来创建数字孪生，所述反应器模型可以通过混合方法而适应于不同的过程设置和规模(例如，如WO 2020/224779 A1中所示的)。所述机器学习模型包含通用参数以及特定于克隆的参数(即，前述的第一分量和第二分量)，这些参数可以取决于应用规范而被一起或单独地训练。这使得所述方法广泛适用于不同的细胞系、克隆和规模。所述通用参数可以用所有数据集进行训练并保存通用代谢行为。另一方面，所述特定于克隆的参数仅用针对某个克隆(特定于克隆)的数据集进行训练，并且因此可以学习除通用行为之外的特定于克隆的行为。基于这些机器学习模型的数字孪生可以学习通用行为和特定于克隆的行为，并且可以被嵌入到控制策略(包括状态估计和模型预测控制)中。所提出的数字孪生例如可以在制造期间用于改进产品质量或用于过程监测以及控制，因为尽管存在测量的不确定性，但其高预测质量也使得能够估计相关系统状态。

本公开的各个方面涉及一种训练用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的方法。例如，所述至少一个机器学习模型可以适合于生物有机体或包括生物有机体的生物反应器的数字孪生。所述方法包括基于训练数据来训练所述机器学习模型。所述训练数据基于所述生物有机体的多个克隆的实验数据。所述训练数据包括基于单个克隆的实验数据的训练数据子集。所述至少一个机器学习模型的第一分量使用(全部)训练数据来训练。所述第一分量表示所述生物有机体的通用动力学行为。所述至少一个机器学习模型的第二分量使用所述训练数据子集来训练。所述第二分量表示所述生物有机体的特定于克隆的动力学行为。通过训练表示通用动力学行为(不同克隆、过程规模和/或细胞系所共有的)的第一分量和表示特定于克隆的行为的第二分量，可以使用附加实验数据来训练具有提高的预测质量的第一分量，该第一分量通过使用所述第二分量而被微调到感兴趣的特定克隆。这可以导致机器学习模型具有总体上提高的预测质量，并且因此提高了采用这种机器学习模型的数字孪生的预测质量。

总体上，例如，在基于监督学习的训练方法中，训练数据包括训练输入数据和训练输出数据。例如，训练输入数据可以包括有机体的实验环境的表示。训练输出数据可以表示响应于相应的实验环境而观察到的动力学特性(例如，浓度、浓度或(流)量的变化)。因此，在涉及生物反应器中的生物有机体的实验期间通常采样的数据可以用于训练所述至少一个机器学习模型，例如，通过一些预处理来生成所述至少一个机器学习模型所期望的输入(和输出)。

训练机器学习模型通常涉及改变机器学习模型，使得在训练期间，所述机器学习模型的观察到的输出与所述机器学习模型的预期输出(例如，如训练输出数据所定义的)之间的差随时间减小。因此，训练所述至少一个机器学习模型可以包括确定函数的输出与训练输出数据之间的偏差，其中所述函数基于所述至少一个机器学习模型、表示所述生物有机体的所述多个克隆的通用功能的第一通量模式集和特定于所述生物有机体的所述单个克隆的第二通量模式集。例如，所述至少一个机器学习模型的输出可以与所述第一通量模式集以及所述第二通量模式集一起用作所述函数的参数，然后与所述训练输出数据进行比较，或者所述训练输出数据可以使用所述第一通量模式集和所述第二通量模式集进行预处理，然后与所述至少一个机器学习模型的输出进行比较。在具体示例中，可以将所述训练输出数据与混合模型进行比较(例如，如WO 2020/224779 A1中所讨论的)，该混合模型可以基于所述至少一个机器学习模型、所述第一通量模式集和所述第二通量模式集，并且任选地，基于一个或多个其他模型，例如反应器模型。例如，所述通量模式可以是基元通量模式(EFM)和代谢基础功能(也被称为基础模式)。例如，对于代谢基础功能的生成(例如生物质生产、产物形成或非必需氨基酸的生产)，可以应用通量平衡分析。进一步的功能可以通过基元通量模式分析来补充。

在一些示例中，实验环境的表示(包含在训练输入数据中)可以包括比训练目的所需的信息更多的信息。因此，可以将降维应用于所述实验环境的表示。例如，所述实验环境的表示可以对应于所述实验环境的压缩表示，该压缩表示与所述实验环境的未压缩表示相比具有降低的维度。这可以在表示所述实验环境的不同数据集之间协调输入向量，并且还降低训练的复杂性，并因此降低训练所需的计算能力。

在许多情况下，所设想的数字孪生用于改进药物产品的生物成分的生产过程。因此，所述生物成分的质量可以是所述机器学习模型可以被训练的另一个因子。例如，所述训练输出数据还可以表示实验环境中所述生物有机体的一个或多个生物制药产品质量特性。实际上，所述至少一个机器学习模型以及基于所述至少一个机器学习模型的数字孪生还可以用于对正在生产的生物成分的质量进行预测，并且因此可以用于选择所述生物有机体的环境，使得所述生物制药产品的质量得到改善。

如上所述，所述训练数据基于来自多个克隆的实验数据。在一些实施例中，所述多个克隆可以是同一细胞系的克隆。换句话说，所述训练数据可以基于所述生物有机体的同一细胞系的多个克隆的实验数据。尽管基于更有限的训练数据库，但使用同一细胞系的多个克隆可以提高实验结果的均一性，并因此提高预测质量。或者，所述训练数据可以基于所述生物有机体的多个不同细胞系的多个克隆的实验数据。这可以增大训练数据池，从而可以提高预测质量，但是如果所述细胞系的行为不够相似，则可能导致问题(例如，在至少一个机器学习模型的收敛上出现问题)。

此外，所述训练数据可以基于来自多个不同过程规模(例如，从小的实验设置到全规模生产)的实验数据。这可以提高所述至少一个机器学习模型当应用于预测不同过程规模下的生物有机体的动力学行为时的预测质量。

例如，所述至少一个机器学习模型可以包括至少一个深度神经网络，其中所述第一分量包括所述至少一个深度神经网络的第一多层，并且所述第二分量包括所述至少一个深度神经网络的第二多层。例如，所述第一分量和所述第二分量可以被实现为同一神经网络的不同层，或者被实现为两个单独的神经网络。

根据一个示例，可以在训练的第一阶段中训练所述第一分量和所述第二分量，并且可以在所述训练的第一阶段之后的所述训练的第二阶段中训练所述第二分量，其中在所述训练的第二阶段期间冻结所述第一分量。总体而言，额外的、特定于克隆的训练可能向所述第一分量仅提供有限的益处，因此所述第一分量可被冻结以降低训练复杂性。

在各种示例中，所述第一分量和所述第二分量基于相应的另一者分量的输出来训练。例如，可以将所述训练输出数据与所述第一分量和所述第二分量的相应输出的组合进行比较，使得这两个分量的输出对相应的另一者分量的训练具有影响。

在一些示例中，所述至少一个机器学习模型还可以包括第三分量，该第三分量将所述第一分量和所述第二分量的输出作为其输入。所述方法可以包括使用所述训练数据来训练所述至少一个机器学习模型的第三分量。例如，该第三分量可以用于组合所述第一分量和所述第二分量的输出。或者，可以将输出进行组合(例如，相乘)以作为(确定性)函数的一部分。

在各种示例中，所述至少一个机器学习模型还可以包括第四分量，该第四分量表示未由所述第一分量和/或所述第二分量表示的一个或多个通量模式。所述方法可以包括使用所述训练数据来训练第四机器学习模型。因此，所述第四机器学习模型可以增加对未由所述第一机器学习模型和所述第二机器学习模型表示的特定于克隆的通量模式的支持。

在各种示例中，可以使用随机算法来训练所述至少一个机器学习模型。例如，可以使用所谓的ADAM算法，该ADAM算法可以被认为是随机梯度下降型算法。

根据一个示例，所述至少一个机器学习模型可以形成机器学习模型集。例如，所述方法可以包括训练多个机器学习模型集。可以用不同的种子值来训练所述多个机器学习模型集，其中所述不同的种子值影响相应的机器学习模型的参数的随机初始化和随机失活(dropout)中的至少一个。所述方法被称为“集成方法(ensemble method)”，并且可以用于通过比较和/或组合由已经接收相同训练(尽管在开始参数和/或随机失活中具有随机差异)的多个不同机器学习模型生成的结果来评估预测模型中的不确定性。

在一些示例中，所述方法还包括使用迁移学习，基于训练数据来至少调整所述至少一个机器学习模型的所述特定于克隆的第二分量，所述训练数据基于另外的单个克隆的实验数据。这样，已经投入到生成用于对第一克隆进行建模的机器学习模型中的计算努力可以被再次用于生成用于对第二克隆进行建模的另外的机器学习模型。

根据一个示例，所述至少一个机器学习模型的第一分量和第二分量是单独的机器学习模型。或者，所述至少一个机器学习模型的第一分量和第二分量可以是同一深度神经网络的第一多层和第二多层。这两种方法都适用于本公开的情况。

如上所述，所述至少一个机器学习模型的训练可以是生成数字孪生的过程的一部分，所述数字孪生可用于对生物有机体(例如，包括生物有机体的生物反应器)的行为进行建模。因此，所述方法还可以包括使用经训练的至少一个机器学习模型来生成生物有机体的数字孪生。该数字孪生可用于许多不同的目的，正如下文所表明的那样。

例如，所述数字孪生可用于实验设计的目的。例如，所述方法可以包括确定要使用所述生物有机体执行的多个实验。例如，可以确定实验，使得覆盖先前未研究的环境条件，或者使得更详细地研究导致较不准确预测的环境条件。一旦已经进行了实验，所得到的实验数据就可以用于继续训练，并且因此提高了所述至少一个机器学习模型的预测质量，并且因此提高了所述数字孪生的预测质量。换句话说，所述方法可以包括基于另外的训练数据来继续训练所述至少一个机器学习模型，另外的训练数据基于多个实验。

所生成的数字孪生的另一个应用是确定用于包含生物有机体的生物反应器的目标参数，例如培养基组成、进料策略等。因此，本公开的一些方面涉及一种用于确定包含至少一种生物有机体的至少一个生物反应器(即，每个生物反应器包含生物有机体)的至少一个目标参数的方法。所述方法包括使用根据上述方法生成的至少一个生物有机体的至少一个数字孪生以及至少一个对应的代价函数来确定所述至少一个目标参数。例如，所述至少一个目标参数可以包括以下项中的至少一个：用于所述至少一种生物有机体的进料培养基的目标培养基组成；用于所述至少一种生物有机体的目标进料策略；用于所述至少一种生物有机体的目标流出策略；以及用于所述至少一种生物有机体的目标初始条件。由于所述数字孪生的改进的预测质量，所确定的目标参数的质量也可得到改进。例如，可以使用至少两种生物有机体的至少两个数字孪生来共同确定所述至少两种生物有机体的至少一个目标参数(例如，针对共同用于多种不同生物有机体的平台培养基)。

此外，例如，出于克隆选择的目的，这样的数字孪生可用于比较不同克隆的特性。因此，本公开的一些方面涉及用于选择生物有机体的克隆的方法。所述方法包括使用上述方法生成生物有机体的多个克隆的多个数字孪生。所述方法包括通过比较所述多个数字孪生的一个或多个特性来选择克隆。同样，所述数字孪生的改进的预测质量还可以改进克隆选择过程。

这种数字孪生的两个进一步的应用涉及监测和控制生物制造过程。例如，本公开的一些方面涉及一种用于监测涉及生物有机体的生物制造过程的方法。所述方法包括使用根据上述方法生成的生物有机体的数字孪生来确定生物制造过程的估计的状态。例如，可以使用滚动时域方法为所述数字孪生提供关于生物有机体的环境的信息。所述方法包括将所述生物制造过程的估计的状态与所述生物制造过程的观察到的状态进行比较。这样，可以在制造过程期间检测意外事件。

例如，在所述生物制造过程的估计的状态与所述生物制造过程的观察到的状态的比较中，可以使用滚动时域估计算法。这可以使得能够随时间估计未知参数，例如未知代谢物浓度。

如上所述，本公开的一些方面涉及一种用于控制涉及生物有机体的生物制造过程的方法。所述方法包括使用根据上述方法生成的生物有机体的数字孪生来连续地调整生物制造过程的环境。使用后退时域方法为所述数字孪生提供关于生物有机体的环境的信息。所述方法包括将所述生物制造过程的估计的状态与所述生物制造过程的定义的参考状态轨迹进行比较。例如，所述估计的状态和所述定义的参考状态轨迹之间的差异可以用于执行连续调整，例如，用于根据状态轨迹来改变状态。

本公开的各个方面涉及包括处理电路和存储电路的一个或多个计算机系统，其中所述计算机系统被配置为执行上述方法中的至少一个。

类似地，本公开的各个方面涉及具有程序代码的计算机程序，用于当所述计算机程序在计算机、处理器或可编程硬件部件上执行时执行上述方法中的至少一个。

附图说明

下面将仅通过示例的方式并参照附图来描述装置和/或方法的一些示例，其中，

图1示出了根据一个示例的通量分解算法的示意性表示；

图2a和图2b示出了训练用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的方法的示例的流程图；

图2c示出了计算机系统的示例的示意图；

图3示出了用于确定至少一个目标参数的方法的示例的流程图；

图4示出了用于监测涉及生物有机体的生物制造过程的方法的示例的流程图；

图5a和图5b示出了根据一个示例的滚动时域估计算法的示意图；

图6示出了用于控制涉及生物有机体的生物制造过程的方法的示例的流程图；

图7a和图7b示出了根据一个示例的模型预测控制算法的示意图；

图8a和图8b示出了模型预测监测和控制算法的示意图；

图9示出了用于选择生物有机体的克隆的方法的示例的流程图；

图10示出了展示一个示例的预测质量的回归图；

图11示出了有状态估计和没有状态估计的预测以及相应测量结果的比较示意图；以及

图12示出了展示偏离黄金批次的过程的示意图。

具体实施方式

现在参照附图更详细地描述一些示例。然而，其他可能的示例并不限于这些详细描述的实施例的特征。其他示例可以包括这些特征的修改以及这些特征的等同和替换特征。此外，本公开中用于描述某些示例的术语不应限制其他可能的示例。

在对附图的整个描述中，相同或相似的附图标记指代相同或相似的元素和/或特征，这些元素和/或特征可以相同或以经过修改的形式实施，同时提供相同或相似的功能。为了清楚起见，图中的线、层和/或区域的厚度也可能进行了放大。

除非在个别情况下另有明确定义，当使用“或”来组合两个元素A和B时，这将被理解为公开了所有可能的组合，即仅A、仅B以及A和B。作为相同组合的另一种措辞，可以使用“A和B中的至少一个”或“A和/或B”。这同样适用于两个以上元素的组合。

如果使用单数形式，例如“一个”、“一种”和“该”，并且没有明确或隐含地将仅使用单个元素定义为强制性的，则另外的示例可以使用几个元素来实现相同的功能。如果一个功能在下文被描述为使用多个元素来实现，则另外的示例可以使用单个元素或单个处理实体来实现相同的功能。还应当理解，术语“包括”和/或“包含”在使用时描述特定特征、整体、步骤、操作、过程、元素、部件和/或其组合的存在，但不排除一个或多个其他特征、整体、步骤、操作、过程、元素、部件和/或其组合的存在或添加。

在本公开中，术语“优化”、“最优”、“最佳”、“最大”、“最小”等以非绝对的方式使用。如果对某项进行了优化，则结果不一定是最优结果，而是在给定约束(例如有限运行时间等)的情况下的最佳结果或最佳结果之一。因此，即使是“最优”结果也不一定表示绝对最优，而是在给定上述约束的情况下的最佳结果或最佳结果之一。在本公开中，优化是指找到更好结果的过程，而不是指确定单个最佳结果。

本公开的各种示例涉及用于在多个细胞系、克隆和项目之间再次使用数据以用于生物技术过程优化和控制的方法。其提供了一种用于例如在多个细胞系、过程形式(即，补料分批和灌流)、规模和产品之间自动生成、验证和模拟数字孪生的新方法，及其在生物技术生产过程的优化、放大、监测和控制方面的应用。本发明提出的构思的一些示例涉及细胞培养方法及其组成，其在一个方面提高了生物治疗性蛋白质的收率和质量。

在下文中，对(生物有机体的)数字孪生模型和代谢网络模型进行简短的介绍。数字孪生，例如Insilico数字孪生，通常使用基于生物学知识构建的代谢网络模型。这可以确保(所有)胞内和胞外通量与给定有机体在模拟的任何时间点的可用途径(pathway)和转化步骤一致。这可以包括考虑不可逆反应步骤的方向性。在使用数字孪生进行模拟期间，质量平衡(即元素平衡和电荷平衡)在(所有)时间点可以是封闭的。在下文中，详细说明代谢网络模型的数学表示。

代谢网络模型是有机体内生化途径的数学表示。途径是一系列生化反应，其中一组代谢底物转化为一组产物。代谢网络的典型途径可包括以下项中的一个或多个：糖酵解；磷酸戊糖途径；氨基酸代谢；氨基酸降解；DNA/RNA、蛋白质、脂质、碳水化合物的形成；糖基化；呼吸；和胞内区室之间以及胞质溶胶和胞外环境之间的运输步骤。

代谢网络模型的构建可以包括通过化学计量矩阵将可用反应组装成数学表示，以及根据先验生物学知识验证预期存在于细胞系中的途径的功能。基因组序列构成了用于重建网络的生化信息的基础。像KEGG(京都基因和基因组百科全书)和Biocyc这样的公共数据库使用基因组注释弥合了基因组序列和生化反应之间的鸿沟。

代谢网络模型可以包括：

a)代谢物的元素组成和摩尔质量。

b)包含化学计量系数的化学计量矩阵，这些化学计量系数指示代谢网络化学反应中各种代谢物的参与和作用(反应物/产物)。

c)可逆性指数，其指出反应是否可逆。

d)催化各个反应步骤的酶的分配。

化学计量矩阵可以被认为是代谢网络模型的中心部分，其中化学计量矩阵是包括参与n个反应的m种代谢物的化学计量系数的m×n矩阵。该矩阵的每一项是将代谢物i与反应j相关联的化学计量系数S_i,j，其中：

化学计量矩阵是不变的，并且通常是稀疏的，因为大多数生化反应仅涉及几种不同的代谢物。在化学计量矩阵的每一行中，代谢物是平衡的，并且在每一列中，化学反应关于元素是平衡的。

如果反应仅在一个方向上进行，则该反应被定义为不可逆的；如果逆反应也可以发生，则该反应被定义为可逆的。为了定义代谢模型，可以将可逆性R定义为代谢模型的所有反应n的布尔值的n维向量。

通常与代谢网络模型结合使用的技术是通量平衡分析。通量平衡分析(FluxBalance Analysis，FBA)是一种分析代谢网络模型反应通量分布的数学方法。其可以用于基于约束线性优化问题来计算通量分布。由此，可以在对代谢网络模型施加一组约束的条件下，通过优选的代谢反应来优化(即，改进)通量。因此，通过分别优化(即，改进)与生物质形成或产物形成相关联的代谢反应，可以最大化(即，改进)生物质形成或生物技术目标产物的生产。

通过FBA求解的线性优化问题可提供代谢网络的改进的或最优的特定通量分布，其在对通量向量v施加稳态约束(Sv＝0)和下限/上限lb、ub以及等式和不等式约束g和h的条件下最大化(即，增大)期望的性能指标/目标Z＝c^Tv。

数学上，整个问题可以表述如下：

约束Sv＝0

lb≤v≤ub

g≤0

h＝0

其中，

Z＝c^Tv是目标函数

c是系数向量，表示对目标函数有贡献的反应的权重

S是化学计量矩阵

v是描述代谢网络的所有通量的通量向量，例如单位是mmol/(gDW·h)，其中gDW是指克干重。

lb是包含通量的下限向量

Ub是包含通量的上限向量

g是特定于代谢网络模型的不等式约束的向量

h是特定于代谢网络模型的等式约束的向量

FBA的目的是最大化或最小化(即，增大或减小)目标函数Z，从而在受到一组约束的条件下在允许的解空间中求出唯一解。目标函数Z指示通过执行FBA，哪些反应可以被最大化(即，增加)(正的权重c)或最小化(即，减少)(负的权重c)。向量c(其是权重向量)用对应于不感兴趣的反应的零以及对应于感兴趣的反应的1填充。例如，如果对特定目标产物的生产速率感兴趣，则向量c针对该特定反应的项为1，并且针对所有其他反应都填充为零。

Z＝c^Tv

无反应的生物过程的一般质量平衡可表示如下：

输入＝输出+积累

然而，由于FBA假设在稳态下质量平衡，因此其意味着积累项变为零。数学上，这可以用矩阵形式表示如下：

Sv＝0

其中，S表示从代谢网络模型获得的作为核心部分的化学计量矩阵，v表示描述代谢网络模型的所有反应的通量的通量向量。通常，反应的数目高于与代谢网络模型相关的代谢物的数目。这意味着未知变量的数目超过了方程的数目，因此，对于这样的系统不存在唯一解。

通量平衡约束缩小了上述方程的可能解空间。这些通量平衡约束可以用方程或不等式表示。方程通过数字精确地定义反应输入或输出通量，而不等式只是在解空间上施加边界。这些约束可以通过修改通量的上限和下限来设置。

lb≤v≤ub

代谢通量分析(MFA)是代谢网络模型中常用的另一种技术。MFA是一个受约束的最小二乘最小化问题。其在考虑各种附加限制的同时，最小化(即，减小)在所得的通量分布和给定的观察到的通量之间的加权均方误差。该加权均方误差目标函数在数学上由Z表示为：

约束Sv＝0

lb≤v≤ub

g≤0

h＝0

其中，

Z是目标函数

v是描述代谢网络的所有通量的通量向量，例如单位是mmol/(gDW·h)

e是根据MFA所得的通量向量

是观察到的通量向量

W是包含的标准差的对角矩阵

S是化学计量矩阵

lb是包含通量的下限向量

ub是包含通量的上限向量

g是特定于代谢网络模型的不等式约束的向量

h是特定于代谢网络模型的等式约束的向量

与普通的最小二乘误差项不同，加权最小二乘误差并不假定所有测量值的标准差一致。更精确的测量值具有较小的标准差值，从而具有较大的权重值(注意，权重被计算为W的逐元素反演。这在上述方程中被表示为)。这种较大的权重值迫使算法优选地拟合更精确的测量值，即具有较低标准差的那些测量值。如果测量值不精确，则其将具有相应的较大标准差值，从而具有较小的权重值。这样，该算法更不可能拟合这种不精确的测量值。总之，加权最小二乘误差可以允许MFA算法在面对非均匀分布的标准差时产生更可靠的结果。

在目标函数中包括加权因子使得算法能够适合不同数量级的通量(例如，小分子(例如，葡萄糖)的消耗速率远大于大分子(例如，糖蛋白)的生产速率)。为了执行MFA算法，例如，可以使用来自CPLEX API(用于求解优化问题的API(应用编程接口))的单纯形法。

基元通量模式分析(EFMA)是代谢网络模型中常用的另一种技术。通量分解算法可以将代谢通量分布分解成基元通量模式(EFM)，这些基元通量模式可以用于训练数字孪生(DT)的至少一个机器学习模型，如本公开中所提出的。EFM通常被认为是稳态下代谢网络中的最小功能单元。这意味着，不能从EFM中删除任何反应，而仍然获得有效的稳态通量分布。使用不同的EFM集，可以描述代谢网络模型中所有可能的通量分布。因此，EFM可以在数学上表征代谢网络结构。

为了使用通量分解算法获得EFM，可以使用由化学计量矩阵S和可逆性向量R组成的代谢网络模型以及通量分布集(例如，经由代谢通量分析(MFA)和/或(随后的)通量平衡分析(FBA)获得)。在本公开中使用的通量分解算法基于Chan等人的工作(“Chan,S.H.J.,and Ji,P.(2011).Decomposing flux distributions into elementary flux modes ingenome-scale metabolic networks.Bioinformatics 27,2256–2262”)，其中应用了一些修改。

图1示出了根据一个示例的通量分解算法的示意性表示。初始条件110，通量分布V₁,V₂,…,V_n，设置V_i＝V_n。在开始时，可以用V_i初始化120被称为rest_flux的变量。可以对rest_flux执行140通量分解算法以获得EFM。一旦求出EFM，则可以将其添加150到所求出的EFM的堆叠，并且从rest_flux中进行减去160。可以重复该过程，直到rest_flux满足某个停止标准(参见第2.4部分)130。如果是这种情况，则可以结束V_i的通量分解，并且可以对V_i+1执行相同的过程180。该循环可以继续，直到最后的通量分布(即V_n)被完全分解170。最后，所有求出的EFM的完整堆叠是通量分解算法的结果，并且可以被保存在模式矩阵M中190。通量分解算法的一个可能的先决条件是将所有可逆反应转化为不可逆形式。这将在下文中详细说明。

为了执行通量分解，代谢网络模型中的反应可以被转换成不可逆形式。可逆反应可分为两个不可逆反应(正向j⁺和反向j^-)，其化学计量系数和通量值的符号相反。这可以用以下方程表示：

其中，

i∈I是代谢化合物(例如ATP(三磷酸腺苷))

j∈J是反应(例如ATP酶1)

c∈C是培养过程(例如，培养1)

t∈T是培养期间的时间点(例如，12.0[h])

R_j是反应j的可逆性向量项

是反应j的不可逆正向反应形式的可逆性向量项

是反应j的不可逆反向反应形式的可逆性向量项

S_i,j是化合物i和反应j的化学计量矩阵项

是化合物i和正向反应j的化学计量矩阵项

是化合物i和反向反应j的化学计量矩阵项

是反应j对于培养c、在时间t时的FBA通量

是正向反应j对于培养c、在时间t时的FBA通量

是反向反应j对于培养c、在时间t时的FBA通量

为了将可逆反应转化为不可逆形式，下一步的任务可以是识别代谢网络模型中的EFM。总体而言，为了将p定义为由通量分布v限定的EFM，可以考虑以下五个不同的约束：

1.基元通量模式p必须满足稳态条件

Sp＝0

其中S是化学计量矩阵。

2.对于每个反应j，存在二进制整数变量a_j，其确定反应j发生(ON)(即，a_j＝1)还是不发生(OFF)(即，a_j＝0)。二元变量a_j必须满足不等式项

0.1a_j≤p_j≤Qδ_ja_j

其中Q是一个大的正数，δ_j也是一个二元变量，其指示要分解的通量的活度函数，如果v_j＞0，则δ_j＝1，否则δ_j＝0(v_j指示反应j的通量)。根据第二个约束，如果a_j＝0(即，反应j不发生)，则p_j＝0，从而不涉及反应j。然而，如果a_j＝1(即反应j发生)，则p_j≥0.1，因此反应j必须具有正通量。

二元变量δ_j是第二个约束的独特特征，这意味着如果δ_j＝1，则p_j和a_j被强制为零。换句话说，这意味着如果v_j＝0，则p_j＝0。变量Q应足够大，以允许由v限定的所有通量模式满足上述约束。Q可被解释为通量模式p内允许的最大化学计量比。

3.为了确保p是非平凡的(即，其至少有一个非零通量)：

4.如前所述，基元通量模式p必须由v限定。为了确保这一点，p中的非零通量的数目必须小于v中的非零通量的数目：

5.第五个约束是所有通量必须为正。情况应该如此，因为所有反应都是不可逆的：

p_j≥0

上述约束可足以确保基元通量模式p由v来限定。因此，每个目标函数都可以起作用，因此目标函数被设置为max()。改进或优化算法的目标是最大化(即增加)零a_j值的数目。这可以加强该算法的稀疏性，使得可以用非零通量的最小(或缩减的)集合来描述系统。上述五个约束以及优化的目标函数可以构造混合整数线性问题。如果对于某个基元通量模式v求出任何可行解，则v仍然是可分解的，否则v可以被认为是EFM。

在识别出新的EFM之后，可以将其添加到已经求出的模式的堆叠。在优化(即，改进)问题中，通过最大化(即，增大)这些模式的正线性组合的系数，从当前剩余通量中减去这些模式。

其中，

j∈E仅表示观察到的交换反应

m是化学计量矩阵S中代谢物的数目

n是化学计量矩阵S中的反应(转化器)的数目

S是化学计量矩阵

m^mod是求出的基元通量模式的数目

M是根据堆叠已经求出的基元通量模式的矩阵

v^rest是当前迭代中的剩余通量

r是具有来自模式矩阵M的基元模式的线性组合的系数的权重向量，以描述v^rest

v^rest*是剩余通量与EFM线性组合之间的残差

为了使算法停止解释由噪声引起的甚至很小的剩余通量可以定义一个停止标准。该停止标准∈可计算为剩余通量和EFM线性组合之间的残差v^rest*除以初始FBA通量分布v的标准差σ，进行平方并且取平均值(加权均方误差，WMSE)：

其中，

∈是停止标准

是对于交换反应j∈E，剩余通量与EFM线性组合之间的残差

σ_j是对于交换反应j∈E，初始FBA通量分布的相应标准差

e是交换反应的数目。

为了使具有显著不同的摩尔质量的代谢物的交换通量结果具有可比性(即，CO₂与生物质或产物的比较)，对于每个交换通量，可以将通量乘以其各自的摩尔质量(分子量w_j)：

其中，

v_j是观察到的交换通量j∈E的初始FBA通量分布

w_j是观察到的交换通量j∈E的代谢物的相应分子量

是观察到的交换通量j∈E的初始FBA通量分布用相应的分子量加权

m^mod是求出的基元通量模式的数目

M是根据堆叠已经求出的基元通量模式的矩阵

r是具有来自模式矩阵M的基元模式的线性组合的系数的权重向量

是用摩尔质量加权的EFM最大正线性组合解释的通量分布

如果达到停止标准，则剩余通量v^rest*可能不会被进一步分解，并且来自FBA堆叠的新FBA通量可用于求出新的EFM。停止标准是一种合适的工具，用于定义通过通量分解求出的EFM的数目。默认情况下，其可以被设置为预定义的低值，例如0.0001。

通量分解的结果可以是基元通量模式矩阵M，其包括(所有的)识别出的EFM。M的维数由代谢网络模型的反应(转化器)的数目和识别出的EFM的数目来定义。

在本公开的各种示例中，可以使用称为代谢基础功能(MBF)(也称为基础节点)的概念。数字孪生可以通过基元通量模式(EFM)活动来学习其输入(例如，生物有机体的环境的表示，诸如以下的一个或多个：浓度，反应器体积，进料，采样，诸如pH、温度和表达水平之类的附加输入)对代谢速率的影响。总体而言，可以经由EFMA获得EFM，EFMA可以通过对估计交换速率的代谢通量分析(MFA)以及随后的通量平衡分析(FBA)来使用观察到的交换通量。在其他方法中，可能为每个新项目或数据从头开始运行该工作流程，这样会导致较高的成本。此外，由于数据可用性有限并且存在测量噪声，所估计的速率的质量可能受损。

这是所提出构思的一个发现，即对于相同的生物体或细胞系，大量代谢功能在项目之间是共同的。示例可包括生物质和产物形成、非必需氨基酸的产生以及某些代谢物的降解。作为代谢网络模型生成的一部分，可能已经定义了某些(所需的)代谢功能，这些代谢功能是这些公共功能的子集。其可通过目标通量平衡分析(FBA)推导出，并可通过应用专家知识进一步扩展。一个示例是氨基酸向另一种氨基酸的转化。这些基础代谢功能可以附加到EFM上，或者可以用作后续EFMA的起始点，并且减少所需EFM的数目，这可以减少通量分解算法的计算时间或者应对数据缩减的挑战。在数字孪生中，EFM和代谢基础功能可在项目间重复使用。

例如，上述代谢基础功能可以经由目标通量平衡分析(FBA)获得，例如，通过以如下方式设置约束：预期底物的交换通量可以被约束为负，产物的交换通量可以被约束为正(通常还将主要底物固定为恒定值以满足无界性问题)，并且其他交换通量可以被约束为零。另外，已知的收率可以被固定，例如对于产物形成的已知底物需求。

例如，对于代谢基础功能“葡萄糖降解”，葡萄糖的交换通量可以被设置为-1，CO₂、H₂O和H的交换通量可以不受约束，同时将所有其他交换通量约束为零。

任选地，可以运行通量分解来补充缺少的功能。

在下文中，给出了(容纳生物有机体的)生物反应器的反应器模型的示例。反应器模型可以表示由于流入(即，进料)和流出(例如，采样、在灌流过程中具有细胞截留的渗透流出和没有细胞截留的出血通量(bleed flux))而引起的生物反应器中的(任何)浓度和体积变化。体积V(t)的变化可以使用以下微分方程来描述：

表示由于从培养基i进料而导致的体积增加。F^I(t)被认为是所有进料速率的行向量。是流出速率，可定义为由于从生物反应器中连续提取培养基而导致的体积减少。F^O(t)被认为是所有流出速率的行向量。

生物质浓度X(t)由于细胞的流出而相对于现有的生物质浓度发生变化。

每个流出j都有自己的细胞截留因子R_j,X，R_j,X指示截留了多少生物质。这意味着，细胞截留因子为0对应于根本没有截留，而细胞截留因子为1对应于完全截留。在一个时间步长内，细胞截留因子被认为是恒定的。

非生物质代谢物的浓度C(t)因进料和流出(具有由因子r_j给出的截留)而产生的变化：

其中是进料i中代谢物浓度的向量。

除了反应器模型之外，数字孪生还可以使用胞外反应模型。胞外反应通常是在培养基中发生的化学降解反应，与生物质浓度无关。这种反应的一个示例是谷氨酰胺降解为5-氧代脯氨酸和氨。不同浓度的变化可以使用质量作用动力学来模拟。总体而言，底物S转化为产物P的非生物降解反应的速率k_deg可在数学上表示为：

作为另一个分量，数字孪生可以包括通用的渗透浓度模型。溶液的渗透浓度(osmolality)是溶解在1千克给定溶液中的溶质颗粒的数目。在制药行业中，渗透浓度是整个生物制剂开发和生产过程中的一个重要的控制和质量检查参数。监测渗透浓度值有助于确保细胞健康并降低过程失败的风险。由此，当训练数字孪生(DT)时，特别是训练DT的至少一个机器学习模型时，可以考虑渗透浓度。为此，可训练渗透浓度模型(或子模型)并将其包含在数字孪生中。这样的渗透浓度模型可以预测实验测量的渗透浓度值。这使得可以控制通过DT优化改进的过程的渗透浓度。这样，可以支持确保经优化的过程中的细胞健康，并且可以降低过程失败的风险。

例如，渗透浓度模型可以是线性回归模型，其在数学上描述为：

其中：

y^N(t)是时间点t时归一化的实验测量渗透浓度值(即，N代表归一化)。

该归一化的类型为最大值归一化

α_i是与代谢物i相对应的系数

是生物反应器中时间点t时代谢物i的归一化实验测量浓度。该归一化的类型是代谢物方面的最大值归一化。排除了生物质、死亡生物质和糖蛋白。

β是截距

线性回归模型可以是“Lasso”类型，其可以基于L1正则化来训练。该算法可以采用归一化的实验测量的化合物浓度(即，)，并预测在时间点t的归一化的实验测量的渗透浓度值(即，y^N(t))。这可以通过估计最佳α_i值以及最佳β值来完成。

在许多情况下，溶液的渗透浓度可计算为溶液中化合物浓度的加权和，其中考虑到权重为正。因此，在Lasso算法中，α_i值(这里称为权重或系数)被强制为正。一旦预测了归一化渗透浓度值，即y^N(t)，就可以应用去归一化，并推导出实际的渗透浓度估计值。

经训练的渗透浓度模型可在过程改进或优化(参见例如图9)的后期阶段使用，其中分别改进或优化培养基中化合物的浓度和/或进料策略。培养基和/或进料优化可能导致模拟的时间分辨生物反应器浓度曲线与实验测量值不同。估计α_i和β后，使用上述方程，可估计与经优化的过程相对应的时间分辨渗透浓度值。为此，可在上述方程中使用经改进或优化的时间分辨生物反应器浓度曲线，即以估计相对应的渗透浓度值，即t^N(t)。这种归一化的渗透浓度值可以被去归一化，从而可以估计实际的时间分辨的渗透浓度值。这有助于将经改进或优化的方法的渗透浓度保持在某个(合理)范围内，使得支持或确保细胞健康，并且经改进或优化的方法处于较低的失败风险。

实际上，可能无法针对每个单独的时间点进行生物反应器浓度测量。如果某个时间点时某个代谢物的测量浓度缺失，则不完整(即，时间点t时代谢物i的)。因此，可能无法预测该特定时间点的相应渗透浓度值。

为了解决这个问题，可以应用下采样方法。使用下采样方法时，数据的时间分辨率被设置为较高的值(例如，Δt＝24h)。然后，可计算t和t+Δt之间所有测量浓度值的平均值，并将其设置为时间点t+Δt的测量浓度。同样的方法也适用于t和t+Δt之间测量的渗透浓度值。这样，即使在t和t+Δt之间的时间段内一个或多个浓度测量值不可用，仍有可能在t+Δt处获得一个值(即，下采样值)。这样，在更多时间点完整的机会增加，从而使用更多数据点来训练渗透浓度值。数据中可用的时间点越多，经训练的渗透浓度模型通常越好。

如果对于某个代谢物，浓度测量值占所有时间点(在整个过程中)的比例小于50％，则可从渗透浓度预测程序中丢弃该代谢物。

本公开的一些示例涉及产物质量属性(PQA)。产物质量属性(如该产物的糖基化和电荷变体)以占总产物滴度(titer)的百分比建模：

其中：

C_varj是PQAj的浓度

p_varj,％是PQAj对总产物滴度的贡献的百分比值

C_P是产物浓度(滴度)

在下文中，讨论了所谓的广义动力学细胞模型(GKCM)、通用模式矩阵、特定于克隆的模式矩阵以及通用参数和特定于克隆的参数。这些可以组合使用，以模拟生物有机体的动力学方面。通用参数和特定于克隆的参数可以对应于至少一个机器学习模型的分量，例如，对应于一个或多个人工神经网络的层，或者对应于不同的机器学习模型。在下文中，介绍了GKCM的应用，包括通用参数和特定于克隆的参数，然后是训练。

广义动力学细胞模型(GKCM)利用微分方程模拟细胞代谢引起的浓度变化。可用于生物质浓度X(t)的微分方程为：

如上述方程所示，生物质浓度可能取决于当前生物质浓度、生物质生长速率(通常仅称为生长速率)和由线性常数k_死亡描述的细胞死亡。在下面的示例中，用单一速率来描述生物质的增长(μ(t)>0)和死亡(μ(t)<0)。

对于代谢物浓度，由于代谢物浓度的变化可能取决于生物质浓度以及特定于生物质的消耗/生产速率r(t)，因此该方程可能不同。这可以由下面的微分方程在数学上进行表示：

生长速率和特定于生物质的消耗/生产速率可取决于当前的生物质浓度和代谢物浓度。这里的变量C(t)是指所有浓度c_i(t)的向量。速率μ(t)、r(t)是由机器学习模型(例如，神经网络，参见下文的不同结构类型)和化学计量(由EFM和/或代谢基础功能给出)给出的动力学的可能输出。一般的数学描述可由下式给出：

[μ(t),r(t)]^T＝f^动力学(M^通用,M^{特定于克隆},t,x^环境(t),θ^通用,θ^{特定于克隆})

其中，

f^动力学(·)是结合来自代谢网络模型的化学计量学的在神经网络中训练的动力学关系

M^通用是包含具有定义顺序的基元通量模式(EFM)和/或代谢基础功能的矩阵。特别地，模式的功能和顺序在每个克隆中是相同的(因此是通用的)。由于生物质或产物组成的差异，只有生物质和产物的合成模式在克隆之间可能不同

M^{特定于克隆} 是包含特定于克隆的数目的基元通量模式(EFM)和/或具有特定于克隆的功能的代谢基础功能的矩阵

x^环境(t)[X(t),c(t),p(t)]^t

p(t)是可用作动力学细胞模型的附加输入的附加参数(例如pH和温度)的向量

θ^通用是通用动力学细胞模型参数的集合，其可以用来自大量克隆的数据进行训练并且在克隆之间进行共享

θ^{特定于克隆}是特定于克隆的动力学细胞模型参数的集合，其仅用根据特定于克隆的数据进行训练

通用模式矩阵M^通用可以包含具有定义的功能和顺序的基元通量模式或基础代谢功能。特别地，模式的功能和顺序在每个克隆中可以是相同的。由于生物质或产物组成的差异，只有生物质和产物的合成模式内的通量在克隆之间可能不同。尽管这些模式中的个体通量存在差异，但这些模式可能具有相同的功能并且在克隆之间位于矩阵中的相同位置。因此，通用动力学模型可以针对其所代表的功能来训练。

特定于克隆的模式矩阵M^{特定于克隆}可以包含任意(即，特定于克隆的)数目的模式，这些模式具有任意(即，特定于克隆的)功能

在下文中，将讨论通用参数和特定于克隆的参数。其可以对应于用于对生物有机体的动力学进行建模的至少一个机器学习模型的第一分量和第二分量。

θ^通用(例如，其可以作为形成至少一个机器学习模型的第一分量和/或第三分量)是使用来自GKCM训练集中的(所有)可用过程(例如，来自全部训练数据)的数据校准的参数集。θ^{特定于克隆}(例如，其可以作为形成至少一个机器学习模型的第二分量和/或第四分量)是训练数据中可能针对每个克隆而存在并且针对每个克隆可能不同的不同参数集，因其仅使用与相应克隆相对应的训练数据(例如，基于单个克隆的实验数据的训练数据子集)进行校准。

在某些情况下，特别是在最初生成GKCM时，可以在来自不同克隆的大量数据集上并行训练θ^通用和θ^{特定于克隆}。在其他情况下，例如，当GKCM先前用历史数据进行训练并且只有针对新克隆的缩减的数据集可用(没有历史数据)时，可以应用温启动，即，可以从先前训练的GKCM加载θ^通用，并且保持不变，同时在新数据上校准与新克隆相对应的特定于克隆的参数θ^{特定于克隆}。

任选地，可以使用通用压缩来处理不同大小的测量向量。总体而言，可以推荐使用输入向量的低维表示(其可以表示生物有机体的环境)，其可以包括可以影响有机体的状态的(所有)因素。输入向量可定义为

x^环境＝[X,c,p]^T

这种低维表示(其可对应于环境的压缩表示)可以例如利用线性方法(如PCA)或利用自动编码器的压缩部分来实现。总体而言，映射函数可以被定义为

其中θ^压缩是θ^通用的子集。

在各种示例中，可将一些一般约束条件应用于f^动力学。在速率方程f^动力学中，通过任何模式的通量之和可以(必须)是正的。负的模式通量可使不可逆反应的通量逆转，从而导致热力学上不可行的通量。此外，在上述符号中，模式矩阵可以包含交换反应(其唯一地映射到具有因子1的胞外化合物)，即，可以包含至胞外化合物的化学计量映射。另外，模式矩阵与化学计量矩阵的矩阵乘法可用于将模式通量映射到生长速率和交换速率。

在一些示例中，可以使用正则化。在训练GKCM的背景下，可能建议特别对特定于克隆的部分(例如，M^{特定于克隆}和θ^{特定于克隆}的通量)正则化

f^动力学的具体示例

在下文中，术语ANN_i用于描述不同的人工神经网络(例如前馈神经网络)，作为指定输入的函数。由于这些神经网络的输出通常被限制在例如0和1之间，因此通常将其与正的标量、向量或矩阵(其在这里表示为H_i)相乘。

下面的示例是关于作为机器学习模型的具体示例的ANN(人工神经网络)给出的。然而，也可以使用其他类型的机器学习模型。

在下文中，给出了用于组合GKCM的通用部分和特定于克隆的部分的架构的两个示例。如稍后将变得明显的，取决于所选择的架构，可以适当地调整至少一个机器学习模型的训练。此外，所提出的构思不限于下面给出的两种架构。

在第一种架构示例中，使用乘法来组合GKCM的通用部分和特定于克隆的部分。通用部分f₁和特定于克隆的部分f₂可以使用以下架构来组合

其中f₁是

f₂是

并且f₄是

在第一种架构中，使用具有第一分量f₁(包括通用动力学细胞模型参数)、第二分量f₂(包括特定于克隆的动力学细胞模型参数)和第四分量f₄(包括特定于克隆的动力学细胞模型参数)的至少一个机器学习模型。

在第二种架构中，至少一个机器学习模型的第一分量和第二分量使用至少一个机器学习模型的第三分量来组合。在第二种架构中，通用部分f₁和特定于克隆的部分f₂使用以下f₃的架构进行组合：

其中f₁是

并且f₂是

并且f₄是

在第二种架构中，使用具有第一分量f₁(包括通用动力学细胞模型参数)、第二分量f₂(包括特定于克隆的动力学细胞模型参数)、第三分量f₃(包括通用动力学细胞模型参数)和第四分量f₄(包括特定于克隆的动力学细胞模型参数)的至少一个机器学习模型。

在上述两个示例中，取决于x^环境(t)中元素的可用测量值，可能由不同的通用压缩产生：

其中，包括可用测量值的相应交集，分别作为来自所有克隆的数据(通用部分f₁的输入)或相应克隆的数据(特定于克隆的部分f₂和f₄的输入)中的x环境子集。请注意，在最简单的情况下，

在一些示例中，可以使用用于可解释的通用行为的数据扩充。数据扩充可用于使模型的通用部分更易于解释。通常，过程数据与特定克隆相关联。然而，过程数据可以被扩充，使得每个过程被复制，从而导致与特定克隆相关联的原始过程集和不与特定克隆相关联的另一过程集。对于不与特定克隆相关联的过程，f₂和f₄的输出可以是0。因此，通用行为可以被识别为f₁和f₃的输出与f₂＝f₄＝0的组合。

在下文中，给出了数字孪生的数学描述的示例。在各种示例中，数字孪生的总体数学描述如下：

其中，

U是涉及胞外反应的代谢物的指数

S是涉及胞外反应的底物的指数

P是涉及胞外反应的产物的指数

以及

[μ(t),r(t)]^T＝f^动力学(M^通用,M^{特定于克隆},t,x^环境(t),θ^通用,θ^{特定于克隆})。

换句话说，可以使用GKCM，并且因此可以使用具有第一、第二、以及任选地第三和/或第四分量的至少一个机器学习模型来确定速率[μ(t),r(t)]^T作为数字孪生的一部分。

包含在模式矩阵中的功能可以是代谢基础功能和/或从来自MFA的通量分布推导出的关于可经由速率估计(例如，经由具有黑盒(数据驱动)动力学细胞模型的数字孪生)获得的观察到的交换速率的EFM。

在下文中，讨论了数字孪生的训练。这包括至少一个机器学习模型的训练，其可以用作GKCM的一部分。

图2a和图2b示出了训练用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的方法的示例的流程图。该方法包括基于训练数据来训练机器学习模型(步骤210)。训练数据基于生物有机体的多个克隆的实验数据。训练数据包括基于单个克隆的实验数据的训练数据子集(或基于各个单个克隆的实验数据的多个子集)。该方法包括使用训练数据(例如，全部训练数据)来训练至少一个机器学习模型的第一分量(步骤211)。第一分量表示生物有机体的通用动力学行为。该方法包括(仅)使用训练数据子集来训练至少一个机器学习模型的第二分量(步骤212)。因此，第二分量表示生物有机体的特定于克隆的动力学行为。

图2c示出了计算机系统20的示例的示意图。计算机系统20包括被配置为提供计算机系统20的功能的电路。例如，图2c的计算机系统20包括(任选的)接口电路22、处理电路24、(任选的)内存电路26和存储电路28。例如，处理电路24可以与接口电路22、内存电路26和存储电路28耦接。例如，处理电路24可以被配置为结合接口电路22(用于例如与计算机系统的其他部件或计算机系统外部交换信息)、内存电路26(用于临时存储信息，例如机器可读指令)和存储电路28(用于永久或半永久地存储信息，例如机器可读指令)来提供计算机系统20的功能。总体而言，处理电路24的功能可以通过处理电路24执行机器可读指令来实现。因此，归属于处理电路24的任何特征可以由多个机器可读指令中的一个或多个指令来定义。计算机系统20可以包括例如在内存电路26内或在存储电路28内的多个机器可读指令。

在一些示例中，计算机系统20被配置为执行图1a和/或图1b的方法。可替换地或附加地，计算机系统20可以被配置为图3、图4、图6和图9的方法中的至少一个。

通常，机器学习是指计算机系统在不使用显式指令而是依赖于模型和推断的情况下可以用来执行特定任务的算法和统计模型。例如，在机器学习中，可以使用从历史数据和/或训练数据的分析推断的数据变换来代替基于规则的数据变换。例如，可以使用机器学习模型或使用机器学习算法来分析图像内容。为了让机器学习模型分析图像内容，可以使用训练图像作为输入以及训练内容信息作为输出来训练机器学习模型。通过用大量的训练图像和相关联的训练内容信息来训练机器学习模型，机器学习模型“学习”识别图像内容，因此可以使用机器学习模型来识别没有包含在训练图像中的图像内容。相同的原理也可用于其他类型的数据：通过使用训练数据和期望的输出训练机器学习模型，机器学习模型“学习”数据和输出之间的变换，其可用于基于提供给机器学习模型的非训练数据提供输出。

在当前情况下，训练至少一个机器学习模型以对生物有机体的动力学方面进行建模。在该背景下，生物有机体可以是寄宿在生物反应器中的细胞(或者更确切地说，是细胞系的相同克隆的多个细胞)。然而，所提出的构思并不限于细胞。可以支持不同类型的生物有机体。“动力学方面”是指生物有机体的代谢，即给定的代谢物流入和给定的环境(胞外代谢物浓度、温度等)如何导致某种流出(其基于生物有机体的代谢)。在GKCM(其可以基于至少一个机器学习模型)的背景下，使用的是速率μ(t)和r(t)和而不是流入和流出，其中μ(t)指的是生物质生长速率(经过细胞死亡的折扣调整)，而r(t)是特定于生物质的消耗/生产速率。速率μ(t)、r(t)是由机器学习模型和化学计量给出的动力学的可能输出，如上面介绍的第一和第二种架构中所示。换句话说，至少一个机器学习模型可以与生物有机体的通量模式相结合，来对生物有机体的动力学进行建模。这通过f^动力学来表示，f^动力学是在与来自代谢网络模型的化学计量相结合的情况下在至少一个机器学习模型中训练的动力学关系，其中

[μ(t),r(t)]^T＝f^动力学(M^通用,M^{特定于克隆},t,x^环境(t),θ^通用,θ^{特定于克隆}).

在该公式中，M^通用关于通用通量模式，M^{特定于克隆}关于特定于克隆的通量模式，x^环境(t)表示生物有机体的环境，因此是至少一个机器学习模型的输入。θ^通用和θ^{特定于克隆}是可训练参数，因此是至少一个机器学习模型的训练对象，因此也是GKCM和DT的训练对象。

训练算法可用于调整(和改进)数字孪生(DT)的(可训练的)变量，使得其能够精确地预测所有给定过程的实验数据(例如，化合物的时间分辨浓度)。该学习程序尤其可以包括调整和改进来自广义动力学细胞模型(即，至少一个机器学习模型)的参数。然后，这种经训练的DT能够基于细胞的环境(主要是胞外代谢物浓度)预测细胞的动力学。机器学习模型(例如，神经网络)接收某个时间步长的数据，并调整其权重和偏差，以预测该特定时间步长的实验数据。这可能会导致在所有时间步长上采用循环方法。因此，在一些示例中，机器学习模型可以被认为是循环代谢网络。关于循环代谢网络的更多信息可以在WO 2020/224779A1中找到。

用实验数据训练该至少一个机器学习模型，以通过优化程序学习随时间推移的细胞培养动态。该实验数据是上面提到的训练数据，其中用训练输入数据训练至少一个机器学习模型。一种用于训练机器学习模型的流行方法称为“监督学习”，该方法也可用于训练至少一个机器学习模型。在监督学习中，使用多个训练样本来训练机器学习模型，其中每个样本包括多个输入数据值(即训练输入数据)和一个或多个期望输出值(即训练输出数据)，即每个训练样本与期望输出值相关联。通过指定训练输入数据和训练输出数据两者，机器学习模型基于与在训练期间提供的样本类似的输入数据来“学习”要提供哪个输出数据。

在所提出的构思中，训练数据可以包括这样的训练输入数据和训练输出数据。在这种情况下，训练输入数据可以包括有机体的实验环境的表示。训练输出数据可以表示响应于相应的实验环境而观察到的动力学特性。如上所述，响应于相应的实验环境观察到的动力学特性的该表示可对应于速率μ(t)、r(t)。然而，这些速率可以不通过至少一个机器学习模型(例如，通过第一分量和第二分量)直接输出。相反，第一分量和第二分量可以嵌入到函数(例如，f^动力学)中，其中与通用通量模式和特定于克隆的通量模式M^通用,M^{特定于克隆}以及实验环境的表示(x^环境(t))一起，第一分量和第二分量是该函数的一部分(例如，作为动力学细胞模型参数))。用于实现这种函数的可能架构的两个示例在上文中被称为第一种架构和第二种架构。例如，至少一个机器学习模型的第一分量和第二分量可以分别对应于f₁(包括通用动力学细胞模型参数)和f₂(包括特定于克隆的动力学细胞模型参数其中至少一个机器学习模型还包括第三分量f₃(包括通用动力学细胞模型参数)和/或第四分量f₄(包括特定于克隆的动力学细胞模型参数)。在一些情况下，假设第一分量、第二分量、第三分量和第四分量包括单独的机器学习模型(例如，ANN)。然而，这些分量也可以被实现为同一机器学习模型(例如，ANN)的单独层。因此，至少一个机器学习模型的第一分量和第二分量(以及任选的第三分量和第四分量)可以是单独的机器学习模型，或者至少一个机器学习模型的第一分量和第二分量(以及任选的第三分量和第四分量)可以是同一深度神经网络的第一和第二(以及任选的第三和第四)多层。在这两种情况下，至少一个机器学习模型可以包括至少一个深度神经网络，其中第一分量、第二分量、(任选的)第三分量以及(任选的)第四分量包括至少一个深度神经网络的第一多层、第二多层、第三多层和第四多层。

监督学习一般基于监督学习算法，例如，分类算法、回归算法或相似度学习算法。在本说明书的情况下，可以使用回归算法，因为当输出可以具有(在一定范围内的)任何数值时可以使用回归算法。

或者，强化学习可用于训练至少一个机器学习模型。在强化学习中，训练一个或多个软件行为者(称为“软件智能体”)以在环境中采取行动。根据所采取的行动，计算奖励。强化学习基于训练一个或多个软件智能体来选择使得累积奖励增加的行动，导致形成能更好地执行给定的任务的软件智能体(如通过增加奖励所证明的)。

监督学习和强化学习都基于逐渐减小至少一个机器学习模型的期望输出和在训练期间由该至少一个机器学习模型提供的输出之间的偏差。在本说明书的情况下，该输出被输入到上述公式中，使得训练可以基于逐渐减小函数(包括至少一个机器学习模型)的期望输出与在训练期间由该函数提供的输出之间的偏差。因此，训练至少一个机器学习模型可以包括确定函数与训练输出数据之间的偏差，其中该函数基于至少一个机器学习模型、表示生物有机体的多个克隆的通用功能的第一通量模式集(例如M^通用)和特定于生物有机体的单个克隆的第二通量模式集(例如M^{特定于克隆})(其也是上述函数的一部分)。换句话说，训练至少一个机器学习模型可以包括确定函数的输出与训练输出数据(实验期间观察到的速率)之间的偏差，其中该函数基于至少一个机器学习模型、表示生物有机体的多个克隆的通用功能的第一通量模式集(例如M^通用))和特定于生物有机体的单个克隆的第二通量模式集(例如M^{特定于克隆})。例如，第一通量模式集和第二通量模式可以包括基元通量模式和/或代谢基础功能。

在WO 2020/224779 A1中概括性地讨论的示例中，上述函数可以基于或对应于混合模型，其中该混合模型包括至少一个机器学习模型、第一通量模式集和第二通量模式集以及其他分量(例如反应器模型)。

在本公开的各种示例中，第一分量和第二分量都是函数(例如f^动力学)的一部分，其中在训练输出数据和该函数之间确定偏差。因此，第一分量的输出也影响第二分量的训练(反之亦然)。对于任选的第三分量和第四分量也是如此。因此，第一和第二(以及任选的第三和第四)分量可以基于相应的其他分量的输出来训练。

在上面介绍的第二种架构中，第一分量和第二分量(分别为f₁和f₂)的输出被输入到至少一个机器学习模型的另一个分量f₃，该f₃包括动力学细胞模型参数该分量可以是至少一个机器学习模型的第三分量，其将第一分量和第二分量的输出作为其输入。因此，该方法还可以包括使用训练数据(使用与结合第一分量和第二分量介绍的技术相同的技术)来训练至少一个机器学习模型的第三分量(步骤213)。附加地或可替换地，至少一个机器学习模型还可以包括第四分量(例如，包括动力学细胞模型参数的f₄)，其表示未由第一分量和/或第二分量表示的一个或多个通量模式。同样，该方法可以包括使用训练数据来训练第四机器学习模型(步骤214)。

至少一个机器学习模型的训练基于减小至少一个机器学习模型的(或在当前情况下，函数的)期望输出与训练输出数据之间的偏差。该偏差可以用作损失函数的一部分(在监督学习的情况下)，其中偏差越大，损失越高，或者该偏差可以用作奖励函数的一部分(在强化学习的情况下)，其中偏差越小，奖励越高。

在下文中，重点放在监督学习以及相应的损失函数。然而，使用具有相应奖励函数的强化学习可以实现类似的结果。

在各种示例中，可以使用随机算法来训练至少一个机器学习模型。例如，可以使用随机梯度下降算法来减小或最小化损失函数的结果。在每个训练迭代中，使用实验数据/训练数据子集(机器学习术语中的“批次”)来计算机器学习模型的参数(例如，至少一个神经网络的层的梯度)。例如，可以通过减小或最小化以下损失函数来更新参数/梯度：

其中，

c^预测是通过混合模型计算的浓度

c^测量是实验测量的浓度

c^测量,std是实验测量的浓度的标准偏差

p是培养运行(即过程)

t是测量时间点

m_i是代谢物

m_交换,i 是交换代谢物

Δt是时间网格上两个相邻点之间的时间间隔

λ是正则化突触权重的加权因子

|W_l|是神经网络中层之间的突触权重的L1范数

V为生物反应器体积

γ是负量正则化的加权因子

relu是整流函数

是在时间点t时培养运行p中的交换代谢物m_交换,i的预测速率

c_rr是速率变化正则化罚因子

在上面的示例中，可以表示上述偏差。

使用训练数据来训练第一和第二(以及任选的第三和第四)分量，该训练数据是基于生物有机体的多个克隆的实验数据。因此，该训练数据不是基于单个克隆的实验数据而是基于多个不同克隆的实验数据而生成的。这些克隆可以都是同一细胞系的克隆。换句话说，训练数据可以基于生物有机体的同一细胞系的多个克隆的实验数据。或者，可以使用两个或多个不同细胞系的克隆(例如，每个细胞系一个或多个克隆，例如每个细胞系多个克隆)。换句话说，训练数据可以基于生物有机体的多个不同细胞系的多个克隆的实验数据。此外，为了进一步增加训练数据的广度，可以使用表示不同过程规模的训练数据(例如，来自小规模实验的实验数据、来自中等规模实验的实验数据和来自大规模生产运行的数据)。换句话说，训练数据可以基于来自多个不同过程规模的实验数据。

为了训练第二(和任选的第四)分量，仅使用训练数据的有限子集，即，基于单个克隆的实验数据的训练数据子集。因此，该一个或多个分量被训练以表示生物有机体的特定于克隆的(即，由训练数据子集表示的克隆的)动力学行为。例如，当用该子集之外的训练数据来训练至少一个机器学习模型时，即，当进行不涉及该单个克隆的训练时，第二分量和任选的第四分量可以被冻结(即，被设置为不可训练状态)。

在本公开中，实验环境的表示(x^环境(t))可以是至少一个机器学习模型的(例如，第一分量、第二分量和第四分量的)输入，而f₁、f₂、f₃和f₄可以是相应的第一分量、第二分量、第三分量和第四分量的相应输出，其在f^动力学中被组合。在一些示例中，该表示可以被压缩。因此，实验环境的表示可以对应于实验环境的压缩表示(例如，)，该压缩表示与实验环境的未压缩表示相比具有降低的维度。

在前面的示例中，速率μ(t)、r(t)是讨论的主要焦点。然而，当作为生物制药生产计划和改进或优化的一部分使用时，DT可能特别有用。因此，训练输出数据还可以表示实验环境中生物有机体的一个或多个生物制药产品质量特性(例如，上文介绍的PQA)。

在本公开的一些示例中，可以采用所谓的集成方法。集成方法是一种评估预测模型不确定性的方法。在该方法中，可以使用相同的训练数据集来训练模型的集合，而不是训练单个模型。为了在不同模型之间施加可变性，可以对应于每个模型设置随机选择的种子值。尽管对于集成内的所有模型具有完全相同的训练集，这导致了模型训练/预测的可变性。模型预测中的这种可变性然后可被解释为模型的不确定性。尽管由于多次训练，集成方法在计算上是昂贵的，但这是量化预测模型的不确定性的简单方法。

总体而言，当执行一次以上的训练(每次训练有随机选择的种子值)时，随机特征会导致训练模型之间的可变性。在训练模型之间的这种可变性可用于量化训练不确定性。经训练的数字孪生(DT)可以包括一个或多个随机特征，例如：

·优化(随机梯度下降)

·DT参数的随机初始化(例如，从均匀分布中采样)

·随机失活(随机关闭一部分神经元)

为了量化经训练的DT(尤其是GKCM的至少一个机器学习模型)的不确定性，可以使用在贪婪超参数搜索中找到的最佳超参数并利用完全相同的数据集来训练多个(例如，10个)广义动力学细胞模型。这里，使用了整个数据集(即，不执行训练测试或训练验证分割，因此使用了100％的数据集)。考虑随机选择的种子值来执行每个训练。因此，至少一个机器学习模型(例如，第一分量、第二分量、任选的第三分量和任选的第四分量)可以形成机器学习模型集。该方法可以包括训练多个机器学习模型集(步骤210)。例如，可以用不同的种子值来递归地训练多个机器学习模型集。例如，不同的种子值可以影响参数的随机初始化和相应的机器学习模型的随机失活中的至少一个。DT的随机特征导致这些多个经训练的动力学细胞模型之间的可变性。这导致DT预测的可变性。整体DT预测(即，描述性质量)可以被认为是由十个动力学细胞模型做出的预测的平均值。然后，经训练的DT的不确定性可以被定义为由十个动力学细胞模型做出的预测的标准偏差。

集成方法的结果可以是经训练的DT(其包括多个广义动力学细胞模型)、经训练的DT的描述性质量的量化、以及DT预测的不确定性的量化。

在本公开的各种示例中，使用了迁移学习。机器学习(ML)算法迭代地训练统计模型来描述输入和输出变量之间的相关性。通常，这是通过向模型提供已知输出(即，训练输出数据)的多个输入数据集(即，训练输入数据)来完成的。基于期望输出值的和计算输出值之间的差，ML模型的参数可以在每次迭代中被更新，直到实现收敛。

由于需要大量定性的变量数据集以及随着数据量和可训练参数的数量而增加的计算工作量，训练机器学习模型在时间和成本方面是非常昂贵的。后者随着模型中变量的数量而增长。

利用温启动的迁移学习通过再次使用模型的一部分来减少这些努力，从而减少了必要的数据量和计算成本，同时提供了ML模型的更好的泛化能力。这将大大节省项目的时间和成本，并提高预测质量。

在人工神经网络(ANN)的背景下，这可以例如意味着，首先利用某个任务训练源模型，然后利用该网络的所得权重和偏差作为初始化(温启动)，以使用相同的网络结构来利用不同的任务训练目标模型。通常，只有ANN的用于新问题的一部分使用先前训练的模型进行初始化，或者新的部分可以添加到先前存在的ANN中以解决新问题。在理想情况下，这可以导致用于第二个问题的ANN的训练时间大大减少，因为训练开始时更接近于整个网络的经改进的或最优的参数集。这也意味着在第二训练中需要更少的数据来获得良好的训练结果。

迁移学习可以应用于广义动力学细胞模型(GKCM)。这里可以考虑不同的使用情况。第一个实际上是GKCM构思的固有部分，即所有克隆都使用ANN的通用层在彼此之间共享信息。因此，即使是从头开始训练GKCM，也将总是包括数据集之间的迁移学习的方面，导致每个克隆需要更少的数据，同时保持良好的泛化能力和高预测准确性。这种同时训练多个模型的方法也被称为多任务学习，是一种典型地用于异构迁移学习问题的方法。

因为在训练之后，可以区分通用行为和特定于克隆的行为。由于各个层是分离的，因此可以使用特定于克隆的层以及迁移学习和温启动的组合来向现有的GKCM添加附加克隆。换句话说，如图2b中进一步所示，该方法还可以包括使用迁移学习，基于训练数据来至少调整至少一个机器学习模型的特定于克隆的第二分量(步骤240)，该训练数据基于另外的单个克隆的实验数据。在GKCM中这样使用迁移学习可以大大加快新克隆的训练速度，并且还使得能够使用更少的数据进行训练(与该项目的独立“标准”DT相比)，因为大部分通用层(和通用行为)已经在其他数据集上进行了训练。在这样的场景中，表示通用分量(即，第一分量)的至少一个机器学习模型的分量可以被进一步训练，或者，为了加快训练，其可以被冻结(即，被设置为不可训练的)。

下文给出了用于迁移学习和/或温启动的三个示例。在第一设置中，可以用相同的(或任选地，增强的)数据集(再次)训练完整的GKCM(通用层和特定于克隆的层)。应用案例包括继续已停止的训练(例如，由于云实例丢失)、当相同克隆的新数据可用时改进现有的GKCM、或软件的版本升级。

在第二设置中，可以用新的特定于克隆的数据集再次训练完整的GKCM(通用层和特定于克隆的层)。这种方法的优点是，训练可以仅使用缩减的数据集来运行。然而，当使用这种方法时，通用层可能不会从向GKCM中添加更多数据而持续获益。在这种情况下，可以在训练的第一阶段中训练第一分量和第二分量(和任选的第三分量和第四分量)，并且可以在训练的第二阶段(其在训练的第一阶段之后)中训练第二分量(和任选的第四分量)，其中在训练的第二阶段期间冻结第一分量。

在用另一个新的克隆完整地再次训练GKCM的第三设置中，可以利用完整的训练数据集(来自新的克隆和先前存在的过程数据)。还建议继续针对先前存在的克隆训练特定于克隆的层，以补偿通用层中的变更。这些预先存在的克隆层可以像通用层一样进行温启动。本公开的主要优点是进一步提高了GKCM的泛化能力。

一旦训练了至少一个机器学习模型，并且因此训练了GKCM，就可以使用其来生成包括至少一个机器学习模型的对应的数字孪生。因此，如进一步在图2b中所示，该方法还可以包括使用经训练的至少一个机器学习模型来生成生物有机体的数字孪生(步骤220)。除了至少一个机器学习模型之外，数字孪生中还可以包括其他分量，例如GKCM的剩余分量(例如，通量模式)、胞外反应模型和渗透浓度模型。

机器学习算法通常基于机器学习模型。换句话说，术语“机器学习算法”可以指可用于创建、训练或使用机器学习模型的指令集。术语“机器学习模型”可以指表示例如基于由机器学习算法执行的训练所学习的知识的数据结构和/或规则集。在实施例中，机器学习算法的使用可以意味着下层机器学习模型(或多个下层机器学习模型)的使用。机器学习模型的使用可以意味着由机器学习算法训练机器学习模型和/或作为机器学习模型的数据结构/规则集。

例如，机器学习模型可以是人工神经网络(ANN)。ANN是受例如可以在大脑中找到的生物神经网络启发的系统。ANN包括多个互连的节点以及节点之间的多个连接(所谓的边)。通常有三种类型的节点，接收输入值的输入节点，(仅)连接到其他节点的隐藏节点，以及提供输出值的输出节点。每个节点可以代表一个人工神经元。每个边可以将信息从一个节点传输到另一个节点。节点的输出可被定义为其输入之和的(非线性)函数。节点的输入可基于提供输入的边或节点的“权重”用于该函数中。可以在学习过程中调整节点和/或边的权重。换句话说，人工神经网络的训练可以包括调整人工神经网络的节点和/或边的权重，即针对给定输入实现期望输出。在至少一些实施例中，机器学习模型可以是深度神经网络，例如包括一个或多个隐藏节点层(即，隐藏层)的神经网络，优选地是多个隐藏节点层。

或者，机器学习模型可以是支持向量机。支持向量机(即支持向量网络)是具有相关联的学习算法的监督学习模型，其可用于例如在分类或回归分析中分析数据。可以通过向输入提供属于两个类别之一的多个训练输入值来训练支持向量机。支持向量机可以被训练为将新的输入值分配给两个类别之一。或者，机器学习模型可以是贝叶斯网络，其是概率有向无环图模型。贝叶斯网络可以使用有向无环图来表示一组随机变量及其条件依赖性。或者，机器学习模型可以基于遗传算法，该遗传算法是模仿自然选择过程的搜索算法和启发式技术。或者，机器学习模型可以基于高斯过程，该高斯过程是随机过程。

接口电路22或用于通信的装置22可以对应于用于在模块内、模块之间或不同实体的模块之间接收和/或传输信息的一个或多个输入和/或输出，该信息可以是根据指定代码的数字(位)值。例如，接口电路22或用于通信的装置22可以包括被配置为接收和/或传输信息的电路。

例如，处理电路24或用于处理的装置24可以使用一个或多个处理单元、一个或多个处理设备、任何用于处理的装置(例如处理器)、计算机或可与相应适配的软件一起运行的可编程硬件部件来实现。换言之，处理电路24或用于处理的装置的所述功能也可以通过软件来实施，然后在一个或多个可编程硬件部件上执行该软件。这样的硬件部件可以包括通用处理器、数字信号处理器(DSP)、微控制器等。

例如，内存电路26或内存26可以包括易失性或非易失性内存，例如，用于提供易失性或非易失性内存的电路。例如，内存电路或内存26可以是随机存取内存(RAM)，例如动态随机存取内存(DRAM)或静态随机存取内存(SRAM)、或持久内存(PMEM)。例如，内存电路的至少一部分可以是处理电路的一部分(例如，处理电路的寄存器)。

例如，存储电路28或用于存储信息的装置28可以包括诸如磁性或光学存储介质之类的计算机可读存储介质的组中的至少一个元件，例如硬盘驱动器、闪存、软盘、随机存取内存(RAM)、可编程只读内存(PROM)、可擦除可编程只读内存(EPROM)、电子可擦除可编程只读内存(EEPROM)或网络存储器。

例如，计算机系统20可以是工作站计算机系统(例如，用于科学计算的工作站计算机系统)。

结合所提出的构思或者上文或下文描述的一个或多个示例(例如，图1、图3至图12)，提及至少一个机器学习模型的训练(并由此，GKCM和DT的训练)的更多细节和方面。至少一个机器学习模型的训练(并由此，GKCM和DT的训练)可以包括对应于所提出的构思的一个或多个方面或上文或下文描述的一个或多个示例的一个或多个附加任选特征。

在下文中，给出了关于这种数字孪生的应用的一些示例，其可以包括如结合图2a和图2b所示的那样训练的至少一个机器学习模型。

在一些示例中，数字孪生可用于过程的改进或优化。

总体而言，存在用于过程改进或优化的不同方法。使用例如来自集成方法的经训练的数字孪生(DT)，现在可以例如通过执行培养基改进或优化和/或进料改进或优化来改进或优化一个(例如单个)或多个过程。经训练的DT的预测质量越好，改进优化结果就越可靠。培养基的改进或优化涉及改进或优化化合物在进料培养基和/或基础培养基中的浓度，目的是降低或最小化受到一组可行性约束的代价函数。进料的改进或优化涉及改进或优化进料策略(即，决定何时进料和进料多少)，目的是降低或最小化受到一组可行性约束的代价函数。

此外，可以使用经训练的DT来执行基于模型的实验设计(MbDoE)。换句话说，如图2b中进一步所示，该方法可以包括确定要使用生物有机体执行的多个实验(步骤230)，以及基于根据多个实验的另外的训练数据来继续训练至少一个机器学习模型(步骤210、211、212、213、214)。基于模型的实验设计也可以被称为基于数字孪生的实验设计(DTDoE)，并且可以执行同时的培养基和进料改进或优化以及新实验的设计。因此，多个实验的确定(步骤230)也可以是图3的方法的一部分。在这两种情况下，可以应用一组可行性约束以确保获得实际可行的解。

在前一种情况下(进料/培养基改进或优化)，目标可以是降低或最小化代价函数(如在培养基和进料优化的情况下)，而在后一种情况下(基于模型的实验设计)，实验数据可以在其信息内容方面更加丰富。理想情况下，实验数据涵盖了过程期间的大范围可变动态。使用这种信息丰富的实验数据来训练DT有助于在其描述性/预测性质量方面构建更好的DT。在例如使用集成方法训练DT之后，考虑到实验设计约束，经训练的DT可用于执行DTDoE。DTDoE的结果是为实验实施而提出的设计实验的指导。所设计的实验可包括进料策略和/或培养基组成的变化。然后，负责实施实验的专家可以根据该指导实施所设计的实验，并且可以提供所得到的实验数据，以用于继续训练至少一个机器学习模型。这些实验数据可以被整合到最初用于训练DT的现存实验数据中。使用这种扩展的数据集训练DT可以导致在其描述性/预测性质量方面更好的DT。

如上所述，DT可用于识别目标参数，例如进料策略、培养基组成等。

图3示出了用于确定包含至少一种生物有机体的至少一个生物反应器的至少一个目标参数的方法的一个示例的流程图。该方法包括使用根据上述(图2b的)方法生成的至少一个生物有机体的至少一个数字孪生以及至少一个对应的代价函数来确定至少一个目标参数(步骤310)。这样的目标参数例如可以包括以下项中的至少一个：用于至少一种生物有机体的进料培养基的目标培养基组成；用于至少一种生物有机体的目标进料策略；用于至少一种生物有机体的目标流出策略；以及用于至少一种生物有机体的目标初始条件(这些都可能影响容纳生物有机体的培养基)。例如，可以确定目标参数，使得与目标参数的其他值相比，所得到的过程的一个或多个特性(例如，产品质量、目标产品的收率等)得到改进。显然，该方法还可以包括生成DT(步骤220)作为准备任务。

在一些示例中，可针对单个克隆确定至少一个目标参数。为此，代表单个克隆的单个数字孪生可能就已足够。或者，可针对同一细胞系或不同细胞系的多个克隆(例如，针对用于寄宿不同克隆的整个平台)确定至少一个目标参数。在这种情况下，可以使用至少两种生物有机体的至少两个数字孪生，针对至少两种生物有机体共同确定至少一个目标参数(即，针对两种或更多种不同的生物有机体，即，两个或更多个不同的克隆，确定相同的一个或多个参数)。

下面将给出例如用于确定目标培养基组成和/或进料策略的相应代价函数的示例，以及各目标参数的相应约束。例如，可以例如针对生物有机体的给定克隆或克隆集计算各自的代价函数，并且可以用于选择生物有机体的给定克隆集中表现最佳的克隆(例如，如结合图9所示的)。例如，该方法可以包括计算和缩放生物有机体的数字孪生的每个模型的培养基组成代价函数，以便在数字孪生的所有模型之间确定经改进的或最优的目标参数(例如，培养基组成)。

在各种示例中，应用一些可行性约束以便于确定至少一个目标参数。

例如，可以应用关于培养基(或多个培养基)的约束。培养基中的代谢物浓度(即c_m)可受特定下限和上限的约束，具体如下：

LB_m≤c_m≤UB_m

基础培养基和进料培养基组成的默认下限和上限可使用以下规则定义，例如：

其中，

m表示进料培养基(即基础培养基或进料培养基)中的某种代谢物

LB_m是指基础/进料培养基浓度的下限

UB_m是指基础/进料培养基浓度的上限

LBF_m 是指用于调整基础/进料培养基组成下限的权重/因子

UBF_m 是指用于调整基础/进料培养基组成上限的权重/因子

SF_m是指进料/基础培养基中存在的所有代谢物的溶解度因子

S是指进料/基础培养基中存在的所有代谢物的溶解度

是指参考进料/基础培养基浓度

请注意，下限值和上限值仅表示默认值，用户可以根据项目规范轻松进行调整。

例如，可以应用关于进料的约束。例如，推注体积(bolus shot volume)可以通过特定的下限和上限来约束，该下限和上限可以被指定如下：

LB≤v_进料≤UB

与培养基组成类似，进料体积的默认界限可定义如下，例如：

LB＝LBF*v^ref

UB＝UBF*v^ref

其中，

LB是指进料体积的下限

UB是指进料体积的上限

LBF是指用于定义进料体积下限的因子

UBF是指用于定义进料体积上限的因子

v^ref是指参考进料体积

请注意，就像培养基约束一样，用户可以轻松地调整边界以匹配项目要求。

在下文中，给出了用于培养基和进料改进或优化的损失函数的示例。例如，损失函数可以包括目标和惩罚项：

其中，

c_m(p,t)是过程p在时间点t时代谢物m的浓度。

c_m(p,t)可以例如表示在对应于给定过程p的最后时间点(即，c_m(p,t_end))的产物浓度。

α是目标项的映射函数。其可能取以下值中的任何一个

V_i是惩罚项i。

惩罚项描述了过程规范(如浓度、体积、渗透浓度等)偏离期望范围或目标值的量。数学上，这可以表述如下：

V_i＝w_i·D_i

其中，

w_i是指对过程规范i偏差施加的惩罚

D_i是指偏差量。

不同的偏离项可以包括以下项中的一个或多个：

·负浓度偏离：该项可确保代谢物浓度保持为正，因此是现实的。

·容器体积上限和下限偏离：该项可确保生物反应器体积保持在或非常接近由上限/下限定义的规定范围。

·浓度上限和下限偏离：该项可确保生物反应器中化合物的浓度保持在或非常接近由上限/下限定义的规定范围。

·培养基偏差偏离：该项可以确保进料培养基中化合物的浓度不会不必要地偏离参考值，从而确保在优化期间只有对损失函数有显著影响的代谢物的浓度才会发生变化。这可有助于消除进料培养基优化中的冗余变化。

·c₀偏差偏离：该项可以确保基础培养基中化合物的浓度不会不必要地偏离参考值，从而支持在优化期间只有对损失函数有显著影响的代谢物的浓度才会发生变化。这可有助于消除基础培养基优化中的冗余变化。

·lm输出偏离：该项可确保经优化的培养基的渗透浓度保持在预定义值以下。高渗透浓度值可能会对细胞健康造成风险。

·进料偏差偏离：该项可以确保进料体积不会不必要地偏离参考值，从而支持在优化期间只有进料曲线中对损失函数有显著影响的那些区域才会发生变化。这可有助于消除进料优化中的冗余变化。

·总进料体积偏离：该项可确保总进料体积保持在或非常接近由上限/下限定义的规定范围。

在下文中，给出实验设计的损失函数(即，MbDoE/DTDoE)的示例。损失函数可以定义为：

其中，ρ_m,n是代谢物m和n的预测浓度之间的相关因子，其在数学上定义为：

其中，

c_m(p,t)和c_n(p,t)是代谢物m和n的预测浓度

和是跨过程和时间点计算的代谢物m和n的平均代谢物浓度。

其中α和V_i的定义同前一节。

改进或优化问题可以使用计算优化器来求解，该优化器例如ADAM优化器(Kingma,D.P.and Ba,J.,2014.Adam:A method for stochastic optimization.arXiv preprintarXiv:1412.6980)，其可用于求解上述改进或优化问题。该问题的求解可以涉及以下三个部分中的一个或多个：1)集成优化，2)多起点，以及3)分段常数改进或优化，下面将讨论其中的每一个。

在下文中，给出了关于集成优化或改进技术的更多细节。如前所述，可以采用经训练的DT作为改进或优化框架的一部分。当采用集成方法时，经训练的DT包括几个动力学细胞模型。在一般设置中，可以针对这些动力学细胞模型中的每一个来求解优化问题，从而获得多个不同的经改进的或最优的解。然后，下一个任务将是组合这些解，以便获得一个单一的整体改进或最优解。然而，这一点并非微不足道，并且可能导致信息的显著丢失，从而提供了次优解。

为了避免这个问题，可以采用基于集成的优化方法。这还涉及使用从集成方法获得的经训练的DT中的多个动力学细胞模型。然而，可以将所有动力学细胞模型合并为单个改进或优化框架的一部分，而不是以顺序方式针对这些模型中的每一个求解一个优化问题。这可以通过定义所提出的改进或优化框架的整体目标来完成，该整体目标可以是从多个动力学细胞模型得到的多个目标函数值的函数。因此，现在的问题可能是找到缩减或最小化组合代价函数的经改进的或最优的解。数学上，这可以表述如下：

整体损失＝f(损失₁,损失₂,…,损失_N)

其中损失i是使用动力学细胞模型模型i计算的损失函数。典型地，函数f是平均函数，因此，N个动力学细胞模型的总损失可以表述如下：

此外，可以使用前述的多起点方法。多起点方法可以形成改进或优化框架的第二分量。如名称所示，这意味着使用了改进或优化问题的多个初始起点。例如，这些初始点可以通过准随机Sobol序列的帮助来生成。假设这些是K个点，则这导致K个改进或优化问题，每个问题从培养基组分浓度的不同初始值开始。多起点方法可以改进设计空间的探索，并且因此避免陷入局部最优区域。因此，初始点的数目越高，设计空间的覆盖越好，并且因此提高了找到全局改进或最优解的概率。

在一些示例中，可以使用分段常数改进或优化。与多起点方法不同，分段常数改进或优化仅适用于时间分辨分量(如进料策略)的改进或优化。因此，其可能仅适用于进料优化和实验设计。该策略涉及将设计空间离散化为一个/多个部分。然后假定位于这些部分中的设计点保持不变，即固定在特定值。这有助于降低改进或优化问题的复杂性，因其可能导致决策变量的数目或设计空间的大小显著减少。此外，该方法可以帮助获得一种更实际可行的解，其中在整个进料曲线上的变化数目更少或更可控。

考虑具有10次推注体积的单次进料，进料策略的改进或优化可以产生这些推注体积的改进或最优值。使用分段常数策略，算法可将10个时间点离散化为多个组，然后可在这些组的每一个中假定恒定的进料体积。因此，这可以将决策变量的数目从推注的数目减少到组的数目。该问题的复杂性可能会因特定进料的组数而异。

在一些示例中，可以进行葡萄糖控制。典型地，葡萄糖进料可以不进行改进或优化，因为大多数细胞培养过程是用基于阈值的葡萄糖控制来操作的。生物反应器中的葡萄糖浓度可能会影响生物过程的性能。因此，在实际过程中应用的控制机制的准确描述对于预测的优化生物过程的准确性可能是重要的。

葡萄糖控制进料通常从由浓缩葡萄糖组成的培养基施加。为了防止在给定的生物过程中葡萄糖的限制，一旦生物反应器中的葡萄糖浓度下降到给定的阈值以下，就可以送入葡萄糖。葡萄糖进料的相应体积添加取决于进料培养基中的葡萄糖浓度和期望的生物反应器葡萄糖浓度(设定点)。葡萄糖控制通常应用于过程期间的某个控制周期(即，在“控制开始”和“控制结束”之间)，并具有某个控制频率(例如，每日控制)。

葡萄糖也可以存在于其他进料培养基中(即，除葡萄糖培养基之外的其他培养基)。因此，当可应用来自这些其他培养基的进料时，生物反应器中的葡萄糖浓度增加。当同时应用其他进料和葡萄糖控制进料时，将其他进料作为计算所需葡萄糖进料体积添加量的可能基础。结果，葡萄糖控制进料可以使剩余的间隙接近设定点。

这样，葡萄糖浓度可以在该过程期间的某个时间段内保持在阈值和设定点值之间。当然，在运行过程期间的每个控制周期可以采用其自己的阈值和设定点值。也可以将控制周期延长到整个过程持续时间。

本公开的一些方面可涉及模型预测监测和控制。即使是良好受控的制造过程也可能遇到未知变量并偏离可接受的范围。这些偏离通常仅在发生后才被检测到，因此几乎没有机会实施纠正和/或预防措施(CAPA)。此外，测量值可能仅在不同的时间尺度上可用(online、offline、atline、inline)，这使得难以实时跟踪过程。模型预测监测和控制可以使得能够处理测量值的不同时间尺度、估计生物过程的状态、基于实时测量值(监测)预测生物过程的性能、以及在定义的参考曲线(“黄金批次”)内改进或优化过程以提供控制建议。

图4示出了用于监测涉及生物有机体的生物制造过程的方法的示例的流程图。该方法包括使用根据图1b的方法生成的生物有机体的数字孪生来确定生物制造过程的估计的状态(步骤410)。使用滚动时域方法向数字孪生提供关于生物有机体的环境的信息(即，环境的表示)。该方法包括将生物制造过程的估计的状态与生物制造过程的观察到的状态进行比较(步骤420)。例如，在生物制造过程的估计的状态与生物制造过程的观察到的状态的比较中，可以使用滚动时域估计算法。很明显，图4的方法还可以包括生成数字孪生(步骤220)。

对于状态估计，可以应用滚动时域估计(MHE)，其中经训练的DT用于获得预测，该预测基于预测的和测量的代谢物浓度之间的差以及对模型或测量的信任而被协调。这允许通过考虑在模型失配(model-plant mismatch)和测量噪声方面的模型不确定性以及未测量代谢物浓度的估计，从测量到测量以逐时间点的方式运行预测。

MHE是用于多变量估计的后退时域改进或优化技术，其使用动态反应器模型、过去的测量轨迹以及要被最小化的代价函数。改进或优化可以在某个时间间隔(即，时域)内执行，当有新的测量值可用时，该时间间隔随时间向前移动(即，滚动时域)(例如，对于需要14天的过程，其MHE时域为6天(d)，时间网格为24小时，可以从0-1d、0-2d、...、0-6d、1d-7d、2d-8d、...、8d-14d进行一次优化)(参见图5)。

图5a和图5b示出了根据一个示例的时域为6天的滚动时域估计(MHE)算法的示意图。该算法考虑到测量值(矩形点)以及来自数字孪生的预测值(三角形点)来执行协调(估计的状态，星形点)。在优化期间，对于滚动时域窗口之外的时间点的状态噪声可以保持固定，而对于滚动时域窗口之内的时间点的状态噪声可以进行改变。MHE还允许估计未测量状态，例如，参见第3天或第7天。在改进或优化以及新的输入测量值之后，窗口向前移动，并且可以重复该程序。

例如，该数学问题可以定义如下：

s.t.c_k+1＝f(c_k,u_k,p_k)+w_k

c_k∈C,u_k∈U,p_k∈P,w_k∈W

其中，

w是状态噪声(描述模型失配)，

L_MHE代价函数，

c包括生物质的代谢物浓度的向量，

C由于约束而产生的可行浓度的集合，

k时间(点)，

u除反应器浓度外的数字孪生输入，即，进料和采样，

U由于约束而产生的可行输入的集合，

f(·) 浓度、输入和附加参数与下一时间点的浓度之间的函数关系(数字孪生模型)，

p附加参数(pH、T、渗透浓度......)的向量，

P由于约束而产生的可行参数的集合，

c_k,p_k,u_k时间点k处的浓度、参数和输入。

假设存在模型失配(在下文中称为状态噪声)以及噪声测量值和输入(进料、采样)。

例如，代价函数可以定义为(改编自Morabito,Bruno,et al."Multi-mode ModelPredictive Control and Estimation for Uncertain Biotechnological Processes."IFAC-PapersOnLine 52.1(2019):709-714)

其中，

m∈M是DT的预测模型的数目

是模型m在时间点i处的状态噪声的向量，

是时间点i处的测量浓度的向量(也可以是DT所需的代谢物子集)，

为模型m在时间点i处预测的浓度的向量，

N_MeE 是状态估计的时域长度(以小时为单位)，

Q_MHE 是状态噪声的加权矩阵

R_MHE 是阶段成本(测量噪声)的加权矩阵

以及矩阵向量范数

在一些示例中，可以进行模型预测控制(MPC)。给定代谢物浓度的参考轨迹，可进行培养期间的改进或优化，以获得经改进或优化的输入(例如，进料、采样)，该经改进或优化的输入可保持过程接近参考，同时即使在过程运行中存在偏差的情况下也保持控制工作量减少或最小化。这可以降低制造期间的风险，同时保持产品质量。

图6示出了用于控制涉及生物有机体的生物制造过程的方法的示例的流程图。该方法包括使用根据图1b的方法生成的生物有机体的数字孪生来连续地调整生物制造过程的环境(步骤610)，其中使用后退时域方法向数字孪生提供关于生物有机体的环境的信息(即，环境的表示)。该方法包括将生物制造过程的估计的状态与生物制造过程的定义的参考状态轨迹进行比较(步骤620)。例如，在生物制造过程的预测状态与生物制造过程的定义的参考状态轨迹的比较中使用模型预测控制算法。基于该比较，可以连续地调整环境(步骤610)。例如，可以根据图4的方法来执行状态估计。可以根据图3的方法来执行环境(即，环境的目标参数)的改进或优化。例如，图6的方法还可以包括生成数字孪生(步骤220)。

图7a和图7b示出了说明根据一个示例的时域为6天的模型预测控制(MPC)算法的示意图。在图7a和图7b中，通过减小或最小化参考(实线)和数字孪生的预测(星形点)之间的偏差，使用该算法来改进或优化控制输入(例如，进料体积或速率)，使得经改进或优化的预测轨迹(预测点周围的深色漏斗)遵循参考(实线)。另外，可以改进或优化控制效果以及终端成本(这里：最终滴度)的偏差(图7a和图7b中未示出)。可以对在培养时间期间向前移动的定义时域内的对未来的预测执行改进或优化。在该时域窗口之外的经改进的或优化的控制输入可以保持固定(或者被实现或者将来受到优化)。

MPC是一种有限后退时域优化技术，其使用动态反应器模型、参考轨迹以及相对于控制输入要被缩减或最小化的代价函数。可以在整个计划的培养时间内进行改进或优化，但是在工厂中仅应用下一个时间点的控制。然后再次进行改进或优化等。

例如，该数学问题可以定义如下：

s.t.c_k+1＝f(c_k，u_k，p_k)

c_k∈C，u_k∈U，p_k∈P

其中，

L_MPC是代价函数，

c是包括生物质的代谢物浓度的向量，

C由于约束而产生的可行浓度的集合，

k为时间(点)，

u除反应器浓度外的数字孪生输入，即，进料和采样，

U由于约束而产生的可行输入的集合，

f(·) 浓度、输入和附加参数与下一时间点浓度之间的函数关系(数字孪生模型)，

p为附加参数(pH、T、渗透浓度......)的向量，

P由于约束而产生的可行参数的集合，

c_k，p_k，u_k为时间点k的浓度、参数和输入。

例如，代价函数可以定义为(改编自Morabito，Bruno，et al."Multi-mode ModelPredictive Control and Estimation for Uncertain Biotechnological Processes.″IFAC-PapersOnLine 52.1(2019)：709-714.)

其中，

m∈M是DT的预测模型集

i∈N_MPC是直至有限时域N_MPC(培养结束)的时间点的集合

是通过DT m预测的在时间点i处的代谢物浓度的向量

是在时间点i处的参考代谢物浓度的向量

u_i是DT的输入，此处：进料(采样将保持在参考过程中)

是通过DT m预测的在时间点N_MPC处的代谢物浓度的向量(此处为最终滴度)，此外

是在时间点N_MPC处的参考代谢物浓度的向量(此处为最终滴度)

Q_MPC是参考偏差的加权矩阵(协方差)

R_MPC是控制效果的加权矩阵(协方差)

E_MPC是终端成本的加权矩阵(协方差)

以及矩阵向量范数

在下文中，讨论整体改进或优化问题。

图8a和图8b示出了状态估计时域为7天并且控制时域为5天的模型预测监测和控制算法的示意图。该算法考虑到测量值(图8a中的矩形830)以及来自数字孪生的预测(图8a中的第二时域线右侧的星星840和区域845)来执行协调(“状态噪声”，第二时域线820左侧的星星810)。在改进或优化期间，对于滚动时域窗口之外的时间点的状态噪声保持固定，而对于滚动时域窗口之内的时间点的状态噪声进行改变。MHE还允许估计未测量状态。在最近时间点处的状态估计然后可用作MPC的初始条件。MPC算法可以通过减小或最小化黄金批次(实线850，图8a)与数字孪生的预测(第二时域线820右侧的星星840和区域845，图8a)之间的偏差来改进或优化控制输入(例如，进料体积或速率)，使得经改进或优化的预测轨迹(第一时域线870右侧的星星860和区域865，图8b)遵循黄金批次(实线880，图8b)。另外，可以改进或优化控制效果以及终端成本(这里：最终滴度)的偏差(图8a和图8b中未示出)。可以对在培养时间期间向前移动的定义时域内的对未来的预测执行改进或优化。在该时域窗口之外的经改进的或优化的控制输入可以保持固定(或者被实现或者将来受到优化)。

模型预测监测和控制算法可以组合经由滚动时域估计的状态估计以及模型预测控制。在每个新的输入测量时，状态估计器可以运行MHE算法以获得MHE时域内的最新状态估计(例如，图4的方法)。然后，当前估计的状态可以用作MPC控制器的预测的初始条件，该MPC控制器根据MPC时域内的MPC目标来改进或优化控制输入(参见图6、图8a和图8b)。

例如，该数学问题可以定义如下：

s.t.c_l+1＝f(c_l，u_l，p_l)

c_l∈C，u_l∈U，p_l∈P，l∈[t；t+N_MPC]

W_k∈W，k∈[t-N_MHE；t]

其中，

是包括生物质的估计代谢物浓度的向量

如结合图3所概述的，在过程的改进或优化期间的一个任务可以是选择有希望的克隆。图9示出了用于选择生物有机体的克隆的方法的示例的流程图。为了克隆选择的目的，该方法包括使用图1b的方法生成生物有机体的多个克隆的多个数字孪生(步骤220)。该方法包括通过比较多个数字孪生的一个或多个特性来选择克隆(步骤910)，该一个或多个特性例如是产品质量、目标产品的收率(或更一般的克隆潜力或克隆可塑性，其可包括目标产品的收率和/或克隆的平台匹配)等。总体而言，克隆潜力或克隆可塑性是克隆的一种特性，在克隆之间可以不同，并且是指过程条件改变后克隆性能(例如，滴度/产品收率)的潜在变化。其可以作为克隆选择标准的特性之一。例如，可以经由针对每个克隆的过程改进或优化(进料策略和/或进料培养基组成)来评价提高滴度的潜力。因此，可以基于根据图3的方法确定的目标参数来选择一个或多个特性。因此，图9的方法还可以包括使用多个数字孪生和对应的代价函数来确定针对每个克隆的至少一个目标参数(步骤310)，其中克隆选择(步骤910)是基于所确定的目标参数。

在下文中，给出了所提出的构思的实际示例。在本示例中，证明了数字孪生可使用跨克隆和过程规模的数据进行训练，并可用于制造期间的模型预测监测和控制。

首先，讨论用于数字孪生生成的实验数据。在本示例中，使用通过谷氨酰胺合成酶(GS)表达系统表达IgG单克隆抗体(mAb)的工业重组中国仓鼠卵巢(CHO)细胞系。单克隆抗体的氨基酸组成(以mol-％计)为：Ala 5.0、Arg 2.9、Asn 4.0、Asp 4.0、Cys 2.4、Glu 4.8、Gln 4.7、Gly 6.5、His 2.0、Ile 2.3、Leu 7.4、Lys 6.8、Met 0.8、Phe 3.5、Pro 7.0、Ser12.7、Thr 8.0、Trp 1.7、Tyr 4.5、Val 9.0。

用于数字孪生生成的实验数据包括来自15ml和250ml规模(因此是两种不同的过程规模)的数据集，总共263个培养和31个克隆，以补料分批模式培养，从而产生IgG抗体，包括完整的氨基酸分析、有机酸、细胞计数、产物滴度、NH₄和葡萄糖浓度。对于大多数克隆，提供了4个培养，然而在某些情况下提供了多达46个培养。

使用的是基于Hefzi等人的基因组规模CHO-K1代谢网络模型(Hefzi,Hooman,etal."A consensus genome-scale reconstruction of Chinese hamster ovary cellmetabolism."Cell systems 3,5(2016):434-443)。进一步整理数据库，得到3700个反应和运输步骤。对重要的代谢功能进行了验证，并增加了其他途径，如糖基化、mAb生产、生长和细胞裂解。

推导出了以下代谢基础功能：由葡萄糖和NH₄合成非必需氨基酸；氨基酸降解为CO₂；由蛋氨酸合成半胱氨酸；由精氨酸合成脯氨酸；葡萄糖降解为CO₂；由葡萄糖合成丙酮酸和乳酸；丙酮酸和乳酸降解为CO₂；丝氨酸降解为丙酮酸；合成生物质和mAb、由苯丙氨酸合成酪氨酸；以及细胞死亡和裂解。

对于胞外网络，考虑了谷氨酰胺非生物降解为5-氧代脯氨酸(和NH₄，H)。

在下文中，讨论了本示例中用于描述所测代谢物的生长和交换速率的GKCM中的具体架构。在下文中，术语ANN_i用于描述例如前馈神经网络，作为指定输入的函数。

其中f₃是

其中f₁是

并且f₂是

ANN₁(例如，至少一个机器学习模型的第一分量)是具有2个隐藏层并且每一个隐藏层具有100个神经元并且输出维度为100的前馈神经网络。对隐藏层使用20％的随机失活，并在隐藏层中使用参数线性整流(parametric relu)作为激活函数。输出层的激活函数为S形函数。H₁是正标量。

ANN₂(例如，至少一个机器学习模型的第二分量)是具有2个隐藏层并且每一个隐藏层具有40个神经元并且输出维度为100的前馈神经网络。对隐藏层使用20％的随机失活，并在隐藏层中使用参数线性整流作为激活函数。输出层的激活函数为tanh函数。H₂是正标量。

矩阵H₃是100×1253的矩阵，其中

本示例中的GKCM只使用了通用模式M^通用，没有使用特定于克隆的模式M^{特定于克隆}。因此，在本示例中f₄为零。换句话说，第四分量是不必要的。

此外，在低维空间中没有使用输入向量的明确表示，即

在下文中，讨论了数字孪生的训练和验证。使用数据扩充，使得每个过程被复制，从而导致与特定克隆相关联的原始过程集和不与特定克隆相关联的另一过程集。对于不与特定克隆相关联的过程，f₂的输出是0。因此，通用行为可以被识别为f₁和f₃的输出与f₂＝f₄＝0的组合。

使用4重交叉验证集评价了数字孪生的预测能力(参见图5)。每个验证和训练集始终包含每个克隆的至少1个培养。也就是说，如果克隆有4个培养可用，则每个训练集中将有3个培养，而验证集中将始终有1个培养。

图10示出了展示每种代谢物的GKCM预测质量的回归图。该图将测量的验证数据与GKCM的预测值进行比较。R²为1.0表示完美预测。

在Cedex Bio HT(Roche)数据的基础上实施模型预测监测和控制，以通过改进或优化进料曲线，将参考培养保持在关于生物质和IgG浓度的改进的或最佳目标轨迹上。状态估计基于整个可用的Cedex Bio HT(Roche)数据集，考虑了不确定的初始浓度，以及通过允许在优化期间改变这些变量而导致的进料和采样信息中的不确定性。

在该具体示例中，模型预测控制的目的是依靠来自数字孪生的预测和状态估计来将培养保持在参考轨迹上。与单独的DT预测相比，状态估计显著更接近于实际测量值，其中以下代谢物的R²值有以下改善：生物质从0.63到0.9，谷氨酸从0.9到0.96，谷氨酰胺从0.67到0.87，丙酮酸从0.8到0.84，葡萄糖从0.5到0.83，糖蛋白(IgG)从0.85到0.98。生物质和糖蛋白浓度可以保持比没有控制的情况(生物质R²＝-5.09，糖蛋白R²＝0.93)更接近于参考轨迹(生物质R²＝0.79，糖蛋白R²＝0.98)。

该示例说明了由所提出构思提出的数字孪生可以对验证集具有较高的预测质量，并提供对当前状态的可靠估计(图11)，同时将过程保持在目标轨迹上(图12)，从而实现稳健的制造。

图11示出了有和没有状态估计的GKCM预测以及来自有状态估计和控制的过程的相应测量结果的比较示意图。有状态估计的GKCM预测比没有状态估计的预测更接近于实际测量值，展示了通过状态估计实现的改进。

图12示出了偏离黄金批次的过程的示意图(比较有控制和无控制的过程的测量)。通过控制和状态估计，过程得以恢复，并得到了接近黄金批次的轨迹。控制器的目标是生物质和糖蛋白轨迹。然而，可以看出，也可以改善其他代谢物的轨迹。

关于前述示例中的一个特定示例所描述的方面和特征也可以与另一示例的一个或多个方面和特征进行组合，以替换该另一示例的相同或相似的特征，或者将这些特征附加地引入到该另一示例中。

示例还可以是或涉及包括程序代码的(计算机)程序，以当该程序在计算机、处理器或其他可编程硬件部件上执行时执行上述方法中的一个或多个。因此，上述方法中的不同方法的步骤、操作或过程也可以由编程的计算机、处理器或其他可编程硬件部件执行。示例还可以涵盖程序存储设备(例如数字数据存储介质)，该程序存储设备是机器、处理器或计算机可读的，并且对机器可执行、处理器可执行或计算机可执行的程序和指令进行编码和/或包含这些程序和指令。程序存储设备例如可以包括或可以是数字存储设备、例如磁盘和磁带的磁存储介质、硬盘驱动器或光学可读数字数据存储介质。其他示例还可以包括被编程为执行上述方法的步骤的计算机、处理器、控制单元、(现场)可编程逻辑阵列((F)PLA)、(现场)可编程门阵列((F)PGA)、图形处理器单元(GPU)、专用集成电路(ASIC)、集成电路(IC)或片上系统(SoC)的系统。

还应当理解，除非在个别情况下明确说明或出于技术原因所必需，说明书或权利要求书中公开的几个步骤、过程、操作或功能的公开不应被解释为暗示这些操作必须依赖于所描述的顺序。因此，前面的描述不将几个步骤或功能的执行限制为某一顺序。此外，在其他示例中，单个步骤、功能、过程或操作可以包括和/或可以是分解成几个子步骤、子功能、子过程或子操作。

如果已经关于设备或系统描述了一些方面，则这些方面也应当被理解为对相应方法的描述。例如，设备或系统的块、装置或者功能方面可以对应于相应方法的特征(例如方法步骤)。因此，关于方法描述的方面也应理解为对相应设备或相应系统的相应块、相应元件、属性或功能特征的描述。

在此将下面的权利要求书并入详细描述中，其中每个权利要求可以独立作为单独的示例。还应当注意，尽管在权利要求书中从属权利要求涉及与一个或多个其他权利要求的特定组合，但是其他示例也可以包括从属权利要求与任何其他从属权利要求或独立权利要求的主题的组合。在此明确提出这种组合，除非在个别情况下声明不打算进行特定组合。此外，即使一项权利要求没有被直接定义为从属于任何其他独立权利要求，对于该其他独立权利要求而言，也应当包括该权利要求的特征在内。

Claims

1.一种训练用于对生物有机体的动力学方面进行建模的至少一个机器学习模型的方法，所述方法包括：

基于训练数据训练(210)所述机器学习模型，其中，所述训练数据基于所述生物有机体的多个克隆的实验数据，所述训练数据包括基于单个克隆的实验数据的训练数据子集，

其中，所述至少一个机器学习模型的第一分量使用所述训练数据来训练(211)，所述第一分量表示所述生物有机体的通用动力学行为，并且

其中，所述至少一个机器学习模型的第二分量使用所述训练数据子集来训练(212)，所述第二分量表示所述生物有机体的特定于克隆的动力学行为。

2.根据权利要求1所述的方法，其中，所述方法包括提供所述机器学习模型作为数字孪生模型的一部分，以用于以下项中的至少一个：a)确定包含至少一种生物有机体的至少一个生物反应器的至少一个目标参数；b)选择生物有机体的克隆；c)控制涉及生物有机体的生物制造过程；以及d)监测涉及生物有机体的生物制造过程。

3.根据权利要求1或2中任一项所述的方法，其中，所述训练数据包括训练输入数据和训练输出数据，所述训练输入数据包括所述有机体的实验环境的表示，并且所述训练输出数据表示响应于相应的实验环境而观察到的动力学特性。

4.根据权利要求3所述的方法，其中，训练所述至少一个机器学习模型包括确定函数的输出与所述训练输出数据之间的偏差，其中所述函数基于所述至少一个机器学习模型、表示所述生物有机体的所述多个克隆的通用功能的第一通量模式集和特定于所述生物有机体的所述单个克隆的第二通量模式集。

5.根据权利要求3或4中任一项所述的方法，其中，所述实验环境的表示对应于所述实验环境的压缩表示，该压缩表示与所述实验环境的未压缩表示相比具有降低的维度。

6.根据权利要求1至5中任一项所述的方法，其中，所述训练数据基于所述生物有机体的同一细胞系的多个克隆的实验数据，或者其中，所述训练数据基于所述生物有机体的多个不同细胞系的多个克隆的实验数据。

7.根据权利要求1至6中任一项所述的方法，其中，所述训练数据基于来自多个不同过程规模的实验数据。

8.根据权利要求1至7中任一项所述的方法，其中，所述至少一个机器学习模型还包括第三分量，该第三分量将所述第一分量和所述第二分量的输出作为其输入，所述方法包括使用所述训练数据来训练所述至少一个机器学习模型的所述第三分量，

并且/或者其中，所述至少一个机器学习模型还包括第四分量，该第四分量表示未由所述第一分量和/或所述第二分量表示的一个或多个通量模式，所述方法包括使用所述训练数据来训练所述第四机器学习模型。

9.根据权利要求1至8中任一项所述的方法，其中，所述至少一个机器学习模型形成机器学习模型集，所述方法包括训练多个机器学习模型集，其中，用不同的种子值来训练所述多个机器学习模型集，所述不同的种子值影响相应的机器学习模型的参数的随机初始化和随机失活中的至少一个。

10.根据权利要求1至9中任一项所述的方法，其中，所述方法还包括使用迁移学习，基于根据另外的单个克隆的实验数据的训练数据来至少调整(230)所述至少一个机器学习模型的特定于克隆的所述第二分量。

11.根据权利要求1至10中任一项所述的方法，其中，所述方法还包括使用经训练的至少一个机器学习模型来生成(220)所述生物有机体的数字孪生。

12.根据权利要求11所述的方法，还包括确定(230)要使用所述生物有机体执行的多个实验，以及基于根据所述多个实验的另外的训练数据来继续训练(210；211；212；213；214)所述至少一个机器学习模型。

13.一种用于确定包括至少一种生物有机体的至少一个生物反应器的至少一个目标参数的方法，所述方法包括：

使用根据权利要求11生成的至少一个生物有机体的至少一个数字孪生以及至少一个对应的代价函数来确定(310)所述至少一个目标参数。

14.根据权利要求13所述的方法，其中，使用至少两种生物有机体的至少两个数字孪生来共同确定所述至少两种生物有机体的所述至少一个目标参数。

15.一种用于选择生物有机体的克隆的方法，所述方法包括：

使用根据权利要求11所述的方法生成(220)所述生物有机体的多个克隆的多个数字孪生；并且

通过比较所述多个数字孪生的一个或多个特性来选择(910)所述克隆。

16.一种用于控制涉及生物有机体的生物制造过程的方法，所述方法包括：

使用根据权利要求11生成的生物有机体的数字孪生来连续地调整(610)所述生物制造过程的环境，其中，使用后退时域方法向所述数字孪生提供关于所述生物有机体的所述环境的信息；并且

将所述生物制造过程的估计的状态与所述生物制造过程的定义的参考状态轨迹进行比较(620)。

17.一种计算机系统(20)，该计算机系统(20)包括处理电路(24)和存储电路(28)，所述计算机系统被配置为执行根据权利要求1至12中任一项所述的方法、根据权利要求13或14所述的方法、根据权利要求15所述的方法和根据权利要求16所述的方法中的至少一个。

18.一种具有程序代码的计算机程序，用于当所述计算机程序在计算机、处理器或可编程硬件部件上执行时执行根据权利要求1至12中任一项所述的方法、根据权利要求13或14所述的方法、根据权利要求15所述的方法和根据权利要求16所述的方法中的至少一个。