场景-工作周报
2024-07-16 20:08:49 0 举报
AI智能生成
AI+创新药物研发
作者其他创作
大纲/内容
人工智能技术AI辅助药物设计
人工智能工具在药物发现中的应用
AlphaFold
Chemical VAE
使用变分自动编码器(VAE)的化学设计
DeltaVina
联用RF和AutoDock计分方法来预测药物与小分子结合的亲和力
InnerOuterRNN
内部和外部递归神经网络用于预测物理、化学和生物特征
NNScore
使用基于神经网络的评分函数,预测蛋白质-配体相互作用亲和力
REINVENT
RNN(递归神经网络)和RL(递归学习)被用来产生一种新的分子(强化学习)
人工智能技术
启发式搜索策略
它从可用可能性中寻找一个良好但并非完美的解决方案,Leon 等人(2021年)通过启发式搜索算法以减少重建过程的时间,快速创建高质量的新配体
支持向量机(SVMs)
用于分类、回归和异常检测的监督机器学习方法,SVMs与QSAR/QSPR和虚拟筛选技术相结合用于药物发现,SVMs在药物发现项目中得到了应用,针对HIV-1蛋白酶,Wei等发现与单一虚拟筛选方法相比,多阶段虚拟筛选方法(包括SVM、基于形状的筛选、药效团建模和分子对接)可以通过减少计算机时间的同时增加命中率和富集因子,显著提高虚拟筛选的效率和准确性
人工神经网络(ANN)
根据大脑神经结构大致建模的处理设备
多层感知器/反向传播网络
最常用的有监督神经网络,它反向传播网络中产生的迭代,防止可能的错误,可用于预测未知配体的ADMET性质
Kohonen神经网络
一种无监督神经网络,ohonen映射或自组织映射(SOM)被用来预测分子表面属性
竞争传播网络(CPG))
基于Kohonen的自组织映射(SOM)概念发展而来的,SOM是一种无监督学习算法,CPG网络在SOM的基础上增加了监督学习的特性
卷积神经网络(Convolutional Neural Network,CNN)
一种深度学习模型,可从非结构化的生物医学文献和现有知识集中预测药物-药物相互作用
贝叶斯神经网络
Winkler and Burden用于开发MHC II类肽段结合亲和力的QSAR模型
循环神经网络(RNNs)
处理序列数据、处理不同时间点的输入以及存储或“记忆”过去知识的能力
一对一网络
单一输入产生单一输出
一对多网络
多对一网络
多对多网络
马尔可夫决策过程(Markov Decision Process,MDP)
MDP 的目标是找到一个最优策略,该策略定义了在给定状态下应该采取的最佳动作,Egbhali-Zarch 等人利用马尔可夫决策模型进行决策,在考虑药物副作用的同时选择有效的治疗方案来治疗Ⅱ型糖尿病患者
自然语言处理(NLP)
使人们能够更深入地理解生化语言,从而阐明双分子识别原理,生物化学和生物学知识正在通过自然语言处理技术得到加强,以加速药物发现。
机器学习在药物设计和药物发现中的应用
机器学习:注于利用数据和算法来模仿人类的学习过程,逐步提高其准确性,机器学习技术在包括QSAR分析、命中发现和新药设计在内的各种应用中增加了对药物数据的决策,从而实现了更准确的结果,机器学习,特别是深度学习,已经成为药物开发中计算方法的一个重要的基础
监督式机器学习(算法通过分析已标记的数据集来学习如何预测或分类新的、未标记的数据)
分类
将输入数据分配到预定义的类别中:逻辑回归、支持向量机(SVM)、决策树、随机森林、神经网络,用于疾病诊断等
回归
预测或估计一个连续的数值:线性回归、岭回归、Lasso回归、决策树回归、神经网络回归,用于天气预测等
无监督式机器学习(不需要标签或外部指导来训练模型,根据相似性、模式和差异性对未排序的数据集进行分组或分类)
聚类
将数据分组成不同的簇,使得同一簇内的数据点尽可能相似,而不同簇的数据点尽可能不同
降维
在保留数据中的重要信息同时减少数据的维数
半监督式机器学习(结合了有标签数据和无标签数据来提高模型的性能)
利用无标签数据来辅助训练有标签数据的模型,
强化学习(智能体通过与环境的交互来学习最优行为策略)
正强化学习
加强行为
负强化学习
避免行为
应用
使用半监督技术和聚类算法,Vishnepolsky 等人(2018年)创建了一个模型用于预测对某些革兰氏阴性微生物具有特定活性的 AMP
为了将药物重新定位用于治疗糖尿病,Moinul 等人发现了抑制 SGLT2蛋白的关键指纹特征,通过使用基于配体的药物设计,特别是片段化的从头药物设计加速了抗 SGLT2 药物的发现过程
深度学习:类似于人脑神经网络的算法来识别数据中的复杂模式
有监督深度学习
卷积神经网络(CNNs):主要用于图像和视频处理,能够自动学习图像的层次特征
人工神经网络(ANN):模拟生物神经网络结构和功能的计算模型
循环神经网络( RNNs):能够处理序列数据,如时间序列数据和自然语言处理
无监督深度学习
应用
Stokes 等人在2020年通过训练一个深度学习网络,从 ZINC 数据库中识别出了 Halicin 和另外八种潜在的抗生素,用于对抗抗生素耐药的细菌
张等人在使用深度学习进行药物再利用,使用了化学序列和氨基酸(AA)序列作为输入,利用了一种基于深度学习的药物-靶点相互作用模型(MT-DTI),发现了几种商业可用的抗病毒药物
计算机辅助药物设计(CADD)
基于结构的药物设计(SBDD):利用靶标蛋白的三维结构来预测配体-靶标相互作用
目标蛋白准备
同源建模、折叠识别和从头计算蛋白质结构预测等
同源建模:基于与已知结构蛋白质的序列相似性以预测未知蛋白质的三维结构。
优点:快速、准确、经济 局限性:依赖序列相似性、无法处理未知结构、需要高质量的已知结构模型。RaptorX、FoldX、MODELLER、Swiss model
优点:快速、准确、经济 局限性:依赖序列相似性、无法处理未知结构、需要高质量的已知结构模型。RaptorX、FoldX、MODELLER、Swiss model
折叠识别:用于寻找具有相似折叠但没有序列相似性的蛋白质。MUSTER、DescFold
Ab initio or de novo modeling:从头建模,当结构中没有足够的同质性来执行比较建模时,执行从头建模进行蛋白结构预测。QUARK、CABS-FOLD、EVfold
AlphaFold:DeepMind 开发的一种革命性的蛋白质结构预测工具,它利用深度学习技术来预测蛋白质的三维结构,其准确性在某些情况下接近或甚至超过实验方法(如 X 射线晶体学和核磁共振光谱学)的结果,高精度、速度快、无需实验数据。AlphaFold 相比于同源建模,提供了一个更为通用和强大的工具,用于蛋白质结构预测。它减少了对于同源模板的依赖,提高了预测的准确性和适用范围。然而,同源建模仍然是一个有用的工具,尤其是在有高序列相似性的情况下,它可以快速提供可靠的结构预测。
AlphaFold:DeepMind 开发的一种革命性的蛋白质结构预测工具,它利用深度学习技术来预测蛋白质的三维结构,其准确性在某些情况下接近或甚至超过实验方法(如 X 射线晶体学和核磁共振光谱学)的结果,高精度、速度快、无需实验数据。AlphaFold 相比于同源建模,提供了一个更为通用和强大的工具,用于蛋白质结构预测。它减少了对于同源模板的依赖,提高了预测的准确性和适用范围。然而,同源建模仍然是一个有用的工具,尤其是在有高序列相似性的情况下,它可以快速提供可靠的结构预测。
关键结合靶点识别
药物活性需要蛋白质和配体的相互作用,因此需要找到高亲和力结合位点,Pocket、SURFNET、Q-Site Finder、DoGSite Score服务器、CASTp、NSiteMatch、Meta-Pocket、DEPTH、RaptorX-BindingSite 、COACH 、PocketDepth和MS Pocket等是用于预测靶蛋白结合位点的工具
准备化合物文库
根据 Lipinski’s “Rule of Five” 、Veber criteria 、ADMET对化合物进行筛选(REAL
library of Enamine 、ZINC、MCULE、PubChem、DrugBank、ChemDiv)
library of Enamine 、ZINC、MCULE、PubChem、DrugBank、ChemDiv)
分子对接与打分
根据蛋白质柔韧性对接
刚性对接(Rigid Docking)
蛋白质和配体都被假设为刚性结构,无法准确模拟蛋白质在结合过程中发生的构象变化
柔性对接(Flexible Docking)
蛋白质和配体在对接过程中进行有限的构象变化,但变化幅度通常受到限制,比刚性对接更接近实际情况
多重柔性对接(Multi-Conformation Docking)
多重柔性对接考虑了配体具有多个稳定构象的情况,这些构象在对接过程中都可能与蛋白质结合
完全柔性对接(Full Flexibility Docking)
蛋白质和配体的构象可以在对接过程中进行完全的自由变化,更真实地模拟蛋白质在结合过程中的动态行为
诱导契合对接(Induced Fit Docking)
一种特殊的柔性对接,它假设蛋白质在配体结合后会经历构象变化,以适应配体的结构
根据配体采样对接
系统搜索
是一种有序的方法,它通过预先定义的规则和步骤来遍历搜索空间:eHiTS、Surflex-Dock、FlexX、GLIDE
随机算法
在搜索过程中随机选择路径或解,而不遵循一个确定的、预先定义的顺序,能够探索搜索空间的不同区域,从而有可能发现传统方法可能忽略的解决方案:AutoDock、Gold、LigandFit、MolDock、Molegro Virtual Docker
对接分数
力场评分函数
基于分子力场理论,描述了分子中原子之间的相互作用,包括静电相互作用、范德华相互作用、氢键等。应用于分子对接和分子动力学模拟中以预测小分子配体与蛋白质靶标之间的结合亲和力
经验评分函数
通过实验数据进行训练和优化得来的
基于知识的评分函数
利用生物学和化学知识来预测分子间相互作用强度,结合了实验数据和理论知识
操作步骤
准备蛋白质结构
从蛋白质数据库(如PDB)中获取蛋白质的三维结构信息,对蛋白质结构进行预处理,如去除水分子、添加缺失的氢原子、进行能量最小化等
准备配体结构
从配体数据库中获取候选配体的结构信息,对配体结构进行预处理,如添加缺失的氢原子、进行能量最小化等
分子对接
将配体放置在蛋白质的潜在结合位点附近,使用分子对接软件(如AutoDock、GRAMM、HADDOCK等)进行分子对接计算,
对接过程中,配体和蛋白质的构象都会被优化,以达到更稳定的结合状态
对接过程中,配体和蛋白质的构象都会被优化,以达到更稳定的结合状态
对接结果评估
计算对接体系的自由能,评估结合亲和力
结合位点验证
验证对接结果中的结合位点是否与实验结果一致
优化对接参数
根据对接结果,调整对接参数,如搜索空间、能量函数等,重复对接过程,以提高对接结果的准确性
新的深度学习法,如EquiBind、GNINA、DiffDock来预测配体与特定蛋白质靶标之间的结合模式
虚拟筛选(VS)
基于结构的虚拟筛选(SBVS)
早期药物开发项目中针对特定的治疗靶点在化合物库中搜索新的生物活性化合物(Pymol、RasMol、JSmol、BALL)
过程:(一)分子靶标制备;(二)化合物数据库选择;(三)分子对接;(四)对接后分析。
基于配体的虚拟筛选(LBVS)
根据有效地与靶标结合的配体的信息来生成目标蛋白质的模型,后使用这一模型预测了新配体与靶结合的可能性
子主题
混合虚拟筛选
LBVS和SBVS的联合应用
分子动力学模拟(MD)
研究分子系统在热力学平衡状态下动态行为的计算方法。它基于牛顿运动定律和经典力学原理,通过求解牛顿运动方程来模拟分子系统中原子之间的相互作用和运动。分子动力学模拟可以提高目标蛋白质的灵活性,获得具有明确结合口袋和分子对接灵活性的目标构象。
Amber(能量精化辅助建模)
OPLS(液体模拟的最优化势能)
CHARMM(哈佛大学分子力学化学)
OPLS-AA力场
GROMOS(格罗宁根分子模拟)
粗粒度力场(CG)
子主题
基于配体的药物设计 (LBDD):利用已知配体的结构-活性关系来设计新化合物
1.定量结构活性关系(QSAR)
配体的结构性质与其结合的靶标的活性之间的关系(OECD QSAR
Toolbox、CORAL、PhramQSAR、AutoQSAR、GUSAR)
Toolbox、CORAL、PhramQSAR、AutoQSAR、GUSAR)
电子效应、疏水效应、空间效应和亚结构效应
过程
数据收集:收集具有已知生物活性的化学物质的结构数据和活性数据
分子表示:将化学物质的分子结构转换为可用于统计分析的数值特征
数据预处理
模型构建、评估、优化
新化合物的预测:使用优化后的模型对新化学物质的生物活性进行预测
验证
2.药效团模型
根据IUPAC的定义,药效团是“实现与特定生物靶标的最佳超分子相互作用并触发或防止其生物反应所需的空间和电子性质的集合”,药效团是对生物大分子识别配体所需的结构性质的抽象描述(LigandScout、Catalyst、PharmMapper、Pharmer、Phase)
选择训练集:选择一组已知与靶标蛋白结合的配体作为训练集
构象生成:为训练集中的每个配体生成一系列构象,以反映配体的构象灵活性
配体对接:将训练集中的配体对接到靶标蛋白的三维结构上,以确定配体与受体之间的相互作用模式
特征提取:从对接后的配体构象中提取化学特征,这些特征反映了配体与受体之间的相互作用模式
模型构建、评估:使用统计学方法建立药效团模型
新化合物的预测:使用优化后的药效团模型对新化学物质的活性进行预测
CADD在药物发现中的应用
RAS抑制剂
P2Y6R拮抗剂
自由主题
自由主题
0 条评论
下一页