CN119400280B

CN119400280B - 一种基于结合模式分析的药物分子虚拟筛选方法

Info

Publication number: CN119400280B
Application number: CN202411371998.6A
Authority: CN
Inventors: 吴建盛; 郑申申; 张航; 丁雯
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-09-29
Filing date: 2024-09-29
Publication date: 2025-10-17
Anticipated expiration: 2044-09-29
Also published as: CN119400280A

Abstract

本发明公开了一种基于结合模式分析的药物分子虚拟筛选方法，属于人工智能药物发现领域；使用PLIP计算待筛选靶标和小分子之间的结合模式，进行编码，并利用DBSCAN算法对结合模式聚类，识别相似结合模式的化合物群体；在筛选阶段，引入两项关键指标：根据氢键补偿数和AutoDock Vina得分形成能量指标，并根据结合模式中相关残基与关键位点alpha碳原子的相关性作为活性指标，用于评估靶标与小分子之间的结合稳定性和特征活性，对候选分子进行多目标前沿分析；本发明方法显著提高了虚拟筛选的效率和精度，增强了对分子间相互作用的细致分析，适用于小规模和大规模的分子筛选，降低药物研发的成本和时间，丰富虚拟筛选结果的多样性，为后续实验提供更具潜力的候选分子。

Description

一种基于结合模式分析的药物分子虚拟筛选方法

技术领域

本发明属于人工智能药物发现技术领域，具体涉及一种基于结合模式分析的药物分子虚拟筛选方法。

背景技术

虚拟筛选技术自其诞生以来，已经成为现代药物发现中不可或缺的一部分。通过计算机模拟，科学家们能够在短时间内筛选出大量小分子化合物，预测它们与目标蛋白的结合亲和力，从而为后续的实验验证提供候选化合物。这种方法的核心是对分子结构和蛋白质靶标之间相互作用的计算分析，尤其是在早期药物开发阶段，虚拟筛选可以大幅度减少筛选时间、降低成本，并提高筛选效率。

传统的虚拟筛选方法通常依赖于分子对接程序，如AutoDockVina，通过预测小分子与靶标蛋白的结合构象和结合能来判断化合物的活性。然而，这种方法主要基于对接分数的高低，可能会忽略一些关键的分子相互作用细节，如氢键、疏水相互作用、盐桥等。这些细节往往决定了分子与靶标结合的稳定性和特异性，是筛选出高质量候选分子的关键。因此，随着虚拟筛选技术的发展，越来越多的研究者开始关注结合模式分析，以期望更准确地识别活性分子并优化筛选结果。

结合模式分析的引入，为虚拟筛选带来了质的飞跃。通过深入解析小分子与靶标蛋白的结合模式，科学家们不仅可以识别出对结合稳定性有贡献的关键位点，还能更好地理解不同化合物的相似性和差异性。这种分析方法不仅提升了筛选的精确度，还为药物设计提供了新的思路，例如通过化学修饰增强某些关键相互作用，从而提高药物的活性和选择性。此外，结合模式分析还能帮助识别和分类具有相似结合模式的化合物，从而丰富虚拟筛选结果的多样性，为后续的实验筛选提供更广泛的候选集。

尽管结合模式分析为虚拟筛选提供了更多的深度和精度，但仅仅依靠这一技术仍然不足以全面优化筛选结果的多样性和准确性。例如，现有的方法可能在某些情况下无法全面评估分子间相互作用对结合稳定性和结合模式特征活性的综合影响。因此，需要进一步的技术改进来弥补这些不足，以实现更为全面和精准的筛选结果。

发明内容

为解决上述问题，本发明公开了一种基于结合模式分析的药物分子虚拟筛选方法。使用PLIP计算待筛选靶标和小分子之间的结合模式，对结合模式进行编码，并利用DBSCAN算法对结合模式聚类，识别相似结合模式的化合物群体。在筛选阶段，本发明进一步引入了两项关键指标：根据氢键补偿数和AutoDockVina得分形成能量指标，并根据结合模式中相关残基与关键位点alpha碳原子的相关性作为活性指标，用于评估靶标与小分子之间的结合稳定性和结合模式的特征活性，对候选分子进行多目标前沿分析。

为达到上述目的，本发明的技术方案如下：

本发明提供了一种基于结合模式分析的药物分子虚拟筛选方法，包括以下步骤：

步骤S100：准备已通过AutoDockVina对接处理的待筛选靶标与小分子数据集；

步骤S200：使用PLIP计算待筛选靶标与小分子之间的结合模式，对结合模式进行编码，并利用DBSCAN算法对结合模式的距离矩阵进行聚类；

步骤S300：每一类选取TopK₁分子，计算蛋白质与配体之间的氢键补偿数；

步骤S400：计算TopK₁分子结合模式中涉及的残基与关键位点alpha碳原子的相关性；

步骤S500：根据氢键补偿数和AutoDockVina分数形成能量指标，并根据结合模式相关残基与关键位点alpha碳原子的相关性形成活性指标，对选取的TopK₁分子进行多目标前沿分析，选取Pareto最优解集。

进一步地，步骤S100具体包括以下步骤：

选择一个待筛选靶标蛋白，并准备相关的小分子化合物数据集；使用AutoDockVina对靶标与小分子数据集进行对接处理，并生成对接后的构象文件。

进一步地，步骤S200具体包括以下步骤：

步骤S201：将步骤S100中的待筛选靶标蛋白和小分子化合物通过PyMOL合并成复合物，为小分子增加氢原子，并删除复合物中多余的水分子。

步骤S202：使用PLIP计算步骤S201中的复合物的结合模式，结合模式包含：Hydrogen Bonds、Hydrophobic Interactions、Salt Bridges、Pi-Cation Interactions和Metal Complexes共计5种非共价键相互作用以及对应的残基类型，残基编号和链名。

步骤S203：对步骤S202中计算得到的靶标蛋白与小分子复合物之间的结合模式进行编码，并使用Tanimoto系数进行相似度度量，计算结合模式之间的距离矩阵。

步骤S204：利用DBSCAN算法对步骤S203中的结合模式的距离矩阵进行聚类，以识别具有相似结合特征的分子群。

其中，上述的非共价键相互作用解释如下：

Hydrogen Bonds(氢键)：氢键是由氢原子与高电负性原子间的电荷差异产生的较弱吸引力。

Hydrophobic Interactions(疏水相互作用)：疏水相互作用是由疏水分子避开水并在空间上聚集而产生的非共价相互作用。

Salt Bridges(盐桥)：盐桥是蛋白质中正负电荷基团之间形成的非共价静电键。

Pi-Cation Interactions(π-阳离子相互作用):π-阳离子相互作用是芳香族环上的π电子与阳离子之间的非共价相互吸引。

Metal Complexes(金属配合物)：金属配合物是配体与中心金属离子通过非共价配位键结合而成的复合物，常见于蛋白质与含金属的小分子之间的相互作用。

进一步地，步骤S300具体包括以下步骤：

步骤S301：根据AutoDockVina分数，选取步骤S204中聚类结果中每一类的TopK₁分子，使用Gromacs命令生成包含溶剂的系统文件，分别处理待筛选靶标、小分子以及复合物。

步骤S302：使用PyMOL和设定的阈值计算步骤S301中生成的包含溶剂的系统文件中的氢键数量，并计算氢键补偿数。

进一步地，步骤S400具体包括以下步骤：

步骤S401：根据AutoDockVina分数，选取步骤S204中聚类结果中每一类的TopK₁分子，使用Gromacs对对接处理后的待筛选靶标、小分子以及复合物分别进行分子动力学模拟，并生成拓扑文件和轨迹文件；

步骤S402：用MDAnalysis加载步骤S401中生成的拓扑文件和轨迹文件，计算关键位点alpha碳原子与步骤S202中得到的结合模式相关残基之间的皮尔逊相关系数，然后将这些相关系数相加得到总的相关性系数。

进一步地，步骤S500具体包括以下步骤：

根据氢键补偿数和AutoDockVina分数形成能量指标，并根据结合模式相关残基与关键位点alpha碳原子的相关性形成活性指标，对选取的TopK₁分子进行多目标前沿分析，选取Pareto最优解集。

本发明的有益效果为：

本发明公开了一种基于结合模式分析的药物分子虚拟筛选方法，属于人工智能药物发现领域。首先，准备已通过AutoDockVina对接处理的待筛选靶标与小分子数据集；然后，使用PLIP计算待筛选靶标与小分子之间的结合模式，对结合模式进行编码，在此基础上，利用DBSCAN算法对结合模式的距离矩阵进行聚类，以识别具有相似结合特征的分子群；接着，在分子初步筛选阶段，根据AutoDockVina分数从每一类聚类中选取TopK₁分子，进一步计算待筛选靶标与小分子之间的氢键补偿数，同时评估TopK₁分子结合模式中涉及的残基与关键位点alpha碳原子的相关性；最后，根据氢键补偿数和AutoDockVina得分形成能量指标，并根据结合模式中相关残基与关键位点alpha碳原子的相关性作为活性指标，对选取的TopK₁分子进行多目标前沿分析，并选取Pareto最优解集，作为最终筛选结果。

本发明方法通过结合模式分析，系统化地记录了结合模式中的非共价相互作用信息，减少了冗余筛选，提高了虚拟筛选的效率和精度。同时，通过综合评估氢键补偿数与关键位点alpha碳原子的相关性，进一步优化了对分子间相互作用的分析。最终，这种系统化和精细化的分析方法，结合多目标前沿分析，不仅显著提高了虚拟筛选的效果，适用于小规模和大规模的分子筛选，而且降低了药物研发的成本和时间，并丰富了虚拟筛选结果的多样性，实现更为全面和精准的筛选结果，为后续实验提供了更具潜力的候选分子。

附图说明

图1为本发明基于结合模式分析的药物分子虚拟筛选方法的整体流程图；

图2为结合模式分析计算流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

选择NMDA靶标作为本方法的示例靶标。

非共价键相互作用解释如下：

Hydrogen Bonds(氢键):氢键是由氢原子与高电负性原子间的电荷差异产生的较弱吸引力。

Hydrophobic Interactions(疏水相互作用):疏水相互作用是由疏水分子避开水并在空间上聚集而产生的非共价相互作用。

Salt Bridges(盐桥):盐桥是蛋白质中正负电荷基团之间形成的非共价静电键。

Metal Complexes(金属配合物):金属配合物是配体与中心金属离子通过非共价配位键结合而成的复合物，常见于蛋白质与含金属的小分子之间的相互作用。

实施例1

结合图1，本实施例公开一种基于结合模式分析的药物分子虚拟筛选方法，具体包括以下步骤：

步骤S100：准备已通过AutoDockVina对接处理的待筛选靶标NMDA与100W配体小分子数据集。

执行步骤S100，包括以下具体步骤：

从PubChem网站上下载NMDA靶标，以及从REAL数据库中随机挑选100W待筛选的配体小分子数据集。

步骤S200：使用PLIP计算待筛选靶标与小分子之间的结合模式，对结合模式进行编码，并利用DBSCAN算法对结合模式的距离矩阵进行聚类，以识别具有相似结合特征的分子群。

结合图2，执行步骤S200，包括以下具体步骤：

步骤S201：将步骤S100中的待筛选靶标和小分子通过PyMOL合并成复合物，为小分子增加氢原子，并删除复合物中多余的水分子。

步骤S202：使用PLIP计算步骤S201中的复合物的结合模式，结合模式包含以下内容Hydrogen Bonds、Hydrophobic Interactions、Salt Bridges、Pi-Cation Interactions和Metal Complexes共计5种非共价键相互作用以及对应的残基类型，残基编号和链名。

步骤S203：对步骤S202中计算得到的靶标与小分子之间的结合模式进行编码，并使用Tanimoto系数进行相似度度量，计算结合模式之间的距离矩阵。包括以下具体内容：

首先，将蛋白质的Fasta序列进行比对，以对齐两个蛋白质链中的残基位置。接着，比较两个蛋白质-配体复合物是否存在相同的非共价相互作用类型。在确认存在相同非共价相互作用类型后，进一步比较这些相互作用所涉及的残基对。如果两个残基对的类型、编号、链名等完全匹配，则认为这些相互作用是相同的。接下来，对这些结合模式进行数字化编码，其中编码的对象包括：

非共价相互作用类型：如氢键、疏水相互作用、盐桥、π-阳离子相互作用以及金属配合物。

残基类型：每个残基的类型名称。

残基编号：残基在蛋白质链中的编号。

链名：残基所属的蛋白质链的名称。

将相同类型的非共价相互作下的相同类型残基编码为1。

最后，通过计算Tanimoto相似度来衡量两个复合物之间的相似性，并进一步计算距离矩阵。Tanimoto相似度的计算公式为：

其中，A和B分别表示两个复合物的编码表示，∩表示交集，∪表示并集。

距离矩阵的计算公式为：

Distance＝1-Tanimoto Similarity

步骤S204：利用DBSCAN算法对步骤S203中的结合模式的距离矩阵进行聚类，以识别具有相似结合特征的分子群。DBSCAN的参数为：

"eps":"0.5",表示邻域的最大距离为0.5。

"min_samples":"5"，表示一个簇的最小样本数为5。

"metric":"precomputed",表示使用预先计算好的距离矩阵进行计算。DBSCAN将直接使用预先计算好的距离矩阵来确定点与点之间的距离，而不需自己计算距离。

步骤S300：每一类选取Top100分子，计算蛋白质与配体之间的氢键补偿数。

执行步骤S300，包括以下具体步骤：

步骤S301：根据AutoDockVina分数，选取步骤S204中聚类结果中每一类的Top100分子，使用Gromacs命令生成包含溶剂的系统文件，分别处理待筛选靶标、小分子以及复合物。包括以下具体内容：

首先，使用PdbFixer修复蛋白质结构中缺失的重原子；其次，利用ACPYPE生成适用于Gromacs的小分子拓扑文件；接着，使用Gromacs分别生成待筛选靶标蛋白和复合物的拓扑文件，所使用的力场为Amber03力场。最后，使用Gromacs命令为蛋白质系统设计模拟盒，并使用水分子填充盒子作为溶剂，从而为后续的分子动力学模拟做好准备。

步骤S302：使用PyMOL和设定的阈值计算步骤S301中生成的溶剂化系统文件中的氢键数量，并计算氢键补偿数。

氢键补偿数＝LBD区域复合物中的氢键数量-(LBD区域蛋白质中的氢键数量+LBD区域小分子中的氢键数量)

用到的寻找氢键的工具是Pymol的find_pairs函数，使用的超参数是：

"cutoff":"3.5"，表示氢键的距离阈值是3.5。

"angle":"45"，表示氢键的角度阈值是45°。

"mode":"1"，表示在判断氢键是否存在时会考虑角度条件。

步骤S400：计算Top100分子结合模式中涉及的残基与关键位点alpha碳原子的相关性。

执行步骤S400，包括以下具体步骤：

步骤S401：根据AutoDockVina分数，选取步骤S204中聚类结果中每一类的Top100分子，使用Gromacs对选取的待筛选靶标、小分子以及复合物分别进行分子动力学模拟，并生成拓扑文件和轨迹文件，包含以下具体内容：

首先，准备结构文件，移除水分子。其次，生成拓扑文件，这里使用的是Amber03力场，并指定水模型为SPC/E。接着，为系统添加盒子并填充溶剂。然后，添加离子以中和系统，确保电荷平衡。之后，进行能量最小化，以优化系统的初始结构。接着，进行NVT和NPT平衡，以调节温度和压力。最后，进行实际的分子动力学模拟，完成整个模拟流程。

步骤S500：根据AutoDockVina分数和氢键补偿数形成能量指标，并根据结合模式相关残基与关键位点alpha碳原子的相关性形成活性指标，对选取的TopK₁分子进行多目标前沿分析，选取Pareto最优解集。

执行步骤S500，包括以下具体步骤：

据步骤S302中获得的氢键补偿数和AutoDockVina得分，分别赋予其0.2和0.8的权重，计算每一类分子的能量相关性指标。根据步骤S402得到的关键位点alpha碳原子与结合模式中残基的相关性数值，形成活性相关性指标。在每一类分子中，基于能量相关性和活性相关性两个维度，进行多目标前沿分析，选取Pareto最优解集，作为最终筛选结果。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，包括以下步骤：

S100：准备一个待筛选靶标蛋白和小分子化合物数据集，使用分子对接程序对待筛选靶标蛋白与小分子化合物数据集进行对接处理；

S200：将对接处理后的待筛选靶标蛋白和小分子化合物数据集通过PyMOL合并成复合物，使用PLIP计算复合物的结合模式，对结合模式进行编码并计算距离矩阵，通过距离矩阵将小分子化合物数据集进行聚类；

S300：选取步骤S200中聚类结果中每一类的TopK₁分子，生成对接处理后的待筛选靶标蛋白质、小分子化合物以及复合物的包含溶剂的系统文件，并计算包含溶剂的系统文件中的氢键数量和氢键补偿数；

S400：选取步骤S200中聚类结果中每一类的TopK₁分子，对对接处理后的待筛选靶标蛋白质、小分子化合物以及复合物分别进行分子动力学模拟，计算步骤S200中得到的结合模式相关残基与关键位点alpha碳原子之间的相关性；

S500：根据氢键补偿数和AutoDockVina得分形成能量相关性指标，根据结合模式相关残基与关键位点alpha碳原子之间的相关性形成活性相关性指标，对选取的TopK₁分子进行多目标分析，选取Pareto最优解集。

2.根据权利要求1所述的一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，所述步骤S100中，分子对接程序为AutoDockVina。

3.根据权利要求1所述的一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，所述步骤S200中，结合模式包含：Hydrogen Bonds、Hydrophobic Interactions、SaltBridges、Pi-CationInteractions和Metal Complexes。

4.根据权利要求1所述的一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，所述步骤S200中，对结合模式计算距离矩阵具体为：用Tanimoto系数进行相似度度量，计算结合模式之间的距离矩阵。

5.根据权利要求1所述的一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，所述步骤S200中，对结合模式的距离矩阵进行聚类的算法为DBSCAN算法。

6.根据权利要求1所述的一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，所述步骤S300中，使用Gromacs命令生成包含溶剂的系统文件。

7.根据权利要求1所述的一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，所述步骤S300中，使用PyMOL和设定的阈值计算包含溶剂的系统文件中的氢键数量和氢键补偿数。

8.根据权利要求1所述的一种基于结合模式分析的药物分子虚拟筛选方法，其特征在于，所述

步骤S400具体包括以下步骤：

步骤S401：根据AutoDockVina分数，选取步骤S200中聚类结果中每一类的TopK₁分子，使用Gromacs对对接处理后的待筛选靶标、小分子以及复合物分别进行分子动力学模拟，并生成拓扑文件和轨迹文件；

步骤S402：用MDAnalysis加载步骤S401中生成的拓扑文件和轨迹文件，计算关键位点alpha碳原子与步骤S200中得到的结合模式相关残基之间的皮尔逊相关系数，然后将这些相关系数相加得到总的相关性系数。

9.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一所述的药物分子虚拟筛选方法。

10.一种电子设备，其特征在于，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述程序被所述一个或多个处理器执行时，实现如权利要求1至8任一所述的药物分子虚拟筛选方法。