2.3 机器学习与药物研发

传统药物研发面临研发周期长、经费投入大、临床批准成功率低等挑战,同时药物研发人员需要处理和分析海量信息。随着计算机软硬件的进步、人工智能理论的发展和药理学数据的积累,机器学习作为一种强大的数据挖掘工具已应用于药物研发的各个子领域,如靶点识别、药物设计和结构优化、药物重新利用、性质评估和临床试验等。本节将从机器学习重要算法、药物设计基本理论和机器学习在基于配体和受体虚拟筛选中的应用方面进行阐述。

早在20世纪90年代,神经网络、支持向量机和随机森林等方法已开始应用于抗癌药物筛选、蛋白序列设计和药物设计。21世纪以来,基于人工智能在药物研发领域的快速发展和药理学数据的大量积累,制药公司开始与人工智能公司开展密切合作,促进该领域的快速发展。

2.3.1 药物设计方法

药物设计方法主要分为两种:一种是从小分子结构出发,通过改造、修饰等方法得到活性更好、毒性更低的新化合物,称为间接药物设计;另一种是从生物靶标大分子结构出发,寻找、设计能够与它发生相互作用并调节其功能的小分子,称为直接药物设计。间接药物设计包括定量构效关系(QSAR)和三维药效基团模型方法;直接药物设计分为分子对接和全新药物设计两种方法。

QSAR是一种根据分子的结构来直接预测分子活性的间接方法。其基本假设是分子的物理化学性质和活性变化依赖于其结构的变化,而且分子的结构可以用反映分子结构的各种参数来描述(分子结构描述符),通过对分子的实验性质进行统计,构建分子结构与分子活性之间的模型。在通过支持向量机对131种皮肤敏感性化合物的分类研究中,支持向量机模型对训练集和测试集的准确率分别是89.77%和72.09%。QSAR是最主要的先导化合物优化方法。

三维药效基团通常是指那些可以与受体结合位点形成氢键相互作用、静电相互作用、范德华相互作用和疏水相互作用的原子或官能团以及它们之间特定的空间排列方式。三维药效基团模型可用于先导化合物的发现,其主要思路是对一组具有生物活性的化合物进行化学结构分析和比较,找出它们的共同特征,构建药效基团模型。这种方法通常用于分子对接前的初筛,能够减少分子对接的工作量,提高分子对接发现化合物之间存在较高分子活性的准确率。

分子对接方法通过将化合物三维结构数据库中的分子逐一与靶点分子进行“对接”,通过不断优化小分子化合物的位置、方向以及构象,寻找小分子与靶点生物大分子作用的最佳构象,计算其与生物大分子的相互作用能。利用分子对接对化合物数据库中所有的分子排序,即可从中找出可能与靶点分子结合的分子。并行化的分子对接方法又被称为高通量虚拟筛选,可以在几天内完成包含数十万甚至数百万化合物的数据库的筛选。分子对接已成为一种与高通量筛选互为补充的寻找先导化合物的方法。

全新药物设计方法根据靶点生物大分子的活性位点(又称为“结合口袋”)的几何形状和化学特征,设计出与其相匹配的具有新颖结构的药物分子。全新药物设计的方法目前主要有两种。一种方法称为碎片连接法,该方法首先根据靶点分子活性部位的特征,在其“结合口袋”空腔中的相应位点上放置若干与靶点分子相匹配的基团或原子,然后用合适的连接片段将其连接成一个完整的分子。另一种方法称为碎片生长法,该方法首先从靶点分子的结合空腔的一端开始,逐渐“延伸”药物分子的结构。在“延伸”过程中,每一步都要对其延伸片段(基团或原子)的种类及其方位进行计算比较,选择最优的结果,再向下一步延伸,直至完成。

2.3.2 药物设计中常见的机器学习方法

随着人工智能的不断发展,许多机器学习方法在药物设计中起到了关键性的作用,推动药物设计进入新的发展阶段。

1.支持向量机

支持向量机(SVM)是1995年由Vapnik和Cortes提出的一种统计学习算法,最初用于二分类问题,现在也用于多分类和回归问题。支持向量机的核心思路是找到一个最优超平面,将二分类的数据尽可能地分开。对于测试集的数据,根据样本和最优超平面的相对位置判断样本的类别。

赵春燕等研究者应用支持向量机算法预测了126种常用药物在哺乳期母体的乳汁和血清中的浓度比率。用线性判别分析(LDA)算法和支持向量机算法构建了两个分类模型,这两个模型对测试集(30种药物)的分类准确率分别是76.7%和90%。

Deeb分别用支持向量机和偏最小二乘(PLS)方法开发QSAR模型,以预测非肽HIV-1蛋白酶抑制剂的抑制活性,并对用支持向量机获得的结果与PLS的结果加以比较,最终发现支持向量机模型比PLS模型要好得多。支持向量机模型训练集和测试集的均方根误差分别为0.202 7和0.275 1,决定系数(R2)分别为0.980 0和0.935 5。

Shahid等人应用了基于支持向量机的递归特征消除(SVM-RFE)方法。该方法可以用于预测治疗复杂神经退行性疾病(NDD)的药物的药理学特性,还可用于解决NDD药物与其他药物的二元分类问题。Shahid等人将SVM-RFE模型应用于一组药物,成功地将NDD药物与非NDD药物进行了分类,并用从314个描述符中选出的40个排名靠前的分子描述符进行了10倍交叉验证,模型的总体准确率为80%。

支持向量机算法常用于药物设计。在上述3个例子中,研究者均使用基于支持向量机的机器学习方法来解决药物设计中的相关问题。

2.决策树和随机森林

决策树(Decision Tree,DT)是一种非参数的机器学习算法,可以根据几个简单变量的输入建立简单的规则,并据此预测目标值,进而解决分类问题。

随机森林(Random Forest,RF)是决策树算法的集成形式,如图2-5所示,它是通过训练多棵决策树来预测分类问题的一种算法,其中每棵决策树都会给出相应的预测结果,根据“少数服从多数”的原则确定最后的分类。这样可以合理降低偶然性,同时为了让每棵决策树的输出有一定的差异,往往会在输入的特征中随机选择一定的比例,以避免过拟合问题和提高泛化能力。

Qiumei等人在包含约160 000个样本的特定药物设计问题的亲和力预测中,使用基于决策树的机器学习方法进行亲和力预测。最终,与传统方法相比,这种方法可以提取更多的蛋白质-配体结合信息,并将药物设计的筛选效率提高200~1000倍。

图2-5 随机森林示意图

Costa等人构建了一个基于决策树的元分类器,并在数据集上对其进行训练,对于每个病态和可成药基因,网络拓扑特征、组织表达谱和亚细胞定位数据作为学习属性。最终得到以66%的精度正确恢复了65%的已知病态基因,并以75%的精度正确恢复了78%的已知可成药基因。

3.k近邻法

k近邻法(kNN)最初由Cover和Hart于1967年提出,这种方法的核心思路是:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一分类,则该样本也属于这一分类,并具有这一分类中样本的特性。在进行分类决策时,样本数据只和少量的相邻样本相关,所以可以很好地解决样本不均衡问题。k近邻法的不足之处是计算量较大,需要样本和剩余样本的距离,才能求得k个近邻点。

4.朴素贝叶斯分类器

朴素贝叶斯分类器(NBC)是基于独立假设的贝叶斯定理的简单概率分类器,有着坚实的数学基础和稳定的分类效率,是机器学习中应用非常广泛的分类器方法之一。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。

罗文舒等人通过查询电子处方集系统筛选出应用量最大的3种中成药(分别为灯盏生脉胶囊、银杏叶滴丸和力天麻杜仲胶囊),共使用了203例受试者数据,构建了常用中成药适宜人群的朴素贝叶斯分类器,并分析了模型对不同人群的预测能力——对3种中成药测试集进行预测,模型的总判别正确率为80.20%。

2.3.3 预测模型的构建

本节将介绍预测模型的构建,具体步骤如下。

1.数据收集

全面而准确的数据集是构建预测模型的关键。首先根据问题,我们可以通过各种途径搜寻相关数据集(包括各种数据库、相关网站、已发表的文献和图书等),同时需要对缺失、重复、异常值等异常数据进行处理,以提升数据的质量,并按一定的比例随机划分训练集、验证集和测试集。

2.数据描述

收集到的数据通常不能直接用于模型的学习,为此我们需要对数据做进一步处理。在药物设计中,我们往往通过分子描述符(如分子量、原子个数和亲疏水性等)、分子指纹等方式将分子结构、蛋白质序列等数据转化成特征供模型学习。这是基于机器学习设计药物的关键之处。

3.特征选择

在数据收集和数据描述阶段,特征往往是冗余和无关的,要保证模型的预测能力,我们需要在训练模型前将无关和重复的特征去除。这样做的目的有两个:一是减少特征数量、降维,使模型的泛化能力更强,避免过拟合;二是增强对特征和特征值之间的理解。特征选择这一过程不是必需的,可以省略,通常用在特征数量过多或者特征之间重叠太多的数据中。

4.模型构建

在模型构建阶段,我们需要确定要解决的是回归问题还是分类问题,还要根据问题和数据类型及其数量选择合适的算法并设置合理的初始值。对于回归预测任务,应多使用逻辑回归算法;对于分类区分任务,应多使用支持向量机、决策树、随机森林和人工神经网络等算法;而对于生成性任务,则深度学习网络更为适用。

按照上述步骤,我们可以解决药物设计中大多数的问题。但是,目前机器学习在药物领域的应用尚处于早期阶段,在部分领域中存在不成熟和不可解释的情况,需要经过进一步的实验验证,才能充分证明机器学习在药物设计领域的可靠性。因此,我们应重视结果的可解释性和可重复性,否则可能会制约机器学习在该领域的进一步发展。

随着人工智能的不断发展,采用机器学习和深度学习的方法解决药物设计的问题(药物设计和优化)的示例已有很多。采用这种方法虽然可以克服传统药物研发中研发周期长、研发成本高等问题,但是也面临着海量数据挖掘的难题以及不同的药物研发需要采用不同的机器学习模型的问题。