精华内容
下载资源
问答
  • Auto-sklearn 安装及用于分子性质预测
    千次阅读
    2022-04-17 18:08:12

    简介

    Auto-sklearn 是一个自动化机器学习工具包,是 scikit-learn 直接替代品,是建立在sklearn进一步封装的基础上。Auto-sklearn不需要用户进行超参数的调节和模型的选择,而是自动进行。它利用了最近在贝叶斯优化、元学习和集成构建方面的优势。

    安装

    当然要先安装好sklearn,再安装auto-sklearn

    pip install smac #贝叶斯优化核心库
    
    pip install sklearn -U
    pip install auto-sklearn
    

    由于网速的原因,加上auto-sklearn可能有很多的依赖包,所以可能无法安装成功,那么需要源码安装。

    首先下载auto-sklearn的安装包

    wget https://files.pythonhosted.org/packages/2b/04/a3e58aeba5320fc9d8859cde68390636f24189499b88daa797821a1320e2/auto-sklearn-0.14.6.tar.gz
    

    解压:

    tar -xvf auto-sklearn-0.14.6.tar.gz
    cd auto-sklearn-0.14.6
    

    随后:

    python setup.py make
    python setup.py install
    

    如果遇上没有的包需要单独安装,另外,auto-sklearn对sklearn的要求是大于0.24.0但是小于0.25.0。

    用于分子性质预测

    auto-sklearn的使用方法算是超级简单,直接命令行的傻瓜式。

    这里还是使用上次的数据集《机器学习模型的超参数优化用于分子性质预测》。

    导入包:

    import numpy as np
    import pandas as pd
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import mean_squared_error
    from sklearn.metrics import r2_score
    from sklearn.metrics import mean_absolute_error
    
    import autosklearn.regression
    import autosklearn.metrics
    
    import matplotlib.pyplot as plt
    import seaborn as sns
    

    导入数据:

    data = pd.read_csv('Test.csv',index_col=0)
    data
    

    在这里插入图片描述
    测试集、训练集划分:

    X = data.iloc[:,:-1] #特征
    y = data.loc[:,'MM'] #预测值
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.25, random_state=96
    )
    

    创建auto-sklearn评估器并训练:

    estimator_askl = autosklearn.regression.AutoSklearnRegressor(
        time_left_for_this_task=1800,
        seed=42, 
        resampling_strategy='cv',
        resampling_strategy_arguments={'folds': 3},
        n_jobs=-1,
        metric=autosklearn.metrics.r2,
    )
    estimator_askl.fit(X_train, y_train)
    

    这里对autosklearn.regression.AutoSklearnRegressor的参数进行解释:
    AutoSklearnRegressor:专门进行回归任务;
    time_left_for_this_task:搜索合适模型的时间限制(以秒为单位)。 通过增加这个值,auto-sklearn 有更高的机会找到更好的模型;
    resampling_strategy:如何处理过拟合,这里使用交叉验证,即cv的方法;
    resampling_strategy_arguments:处理过拟合方法的参数,这里是5重交叉验证;

    查看训练集上的表现:

    y_train_pred = estimator_askl.predict(X_train)
    #计算R2,RMSE,MAE,训练集
    rmse = np.sqrt(mean_squared_error(y_train, y_train_pred))
    r2 = r2_score(y_train, y_train_pred)
    mae = mean_absolute_error(y_train, y_train_pred)
    print('训练集 MAE:{:.3f}, RMSE:{:.3}, R2:{:.3}'.format(mae, rmse, r2))
    

    输出:训练集 MAE:0.624, RMSE:0.787, R2:0.644

    拟合曲线:

    %matplotlib notebook
    y_train_pred = estimator_askl.predict(X_train)
    sns.regplot(y_train, y_train_pred)
    plt.xlim(-0.5,10.5)
    plt.ylim(-0.5,10.5)
    plt.title('Train Set')
    

    在这里插入图片描述

    查看测试集上的表现:

    y_test_pred = estimator_askl.predict(X_test)
    
    #计算R2,RMSE,MAE,测试集
    rmse = np.sqrt(mean_squared_error(y_test, y_test_pred))
    r2 = r2_score(y_test, y_test_pred)
    mae = mean_absolute_error(y_test, y_test_pred)
    print('测试集 MAE:{:.3f}, RMSE:{:.3}, R2:{:.3}'.format(mae, rmse, r2))
    ```bash
    

    输出:测试集 MAE:0.961, RMSE:1.07, R2:0.763

    作图:

    %matplotlib notebook
    sns.regplot(y_test, y_test_pred)
    plt.xlim(-0.5,10.5)
    plt.ylim(-0.5,10.5)
    plt.title('Test Set')
    

    在这里插入图片描述

    从结果来看,上次使用GradientBoostingRegressor模型结合超参数的网格搜索,其R2为0.62, 这次的auto-sklearn则展现出了R2为0.66,说明auto-sklearn是一个非常好用的机器学习工具。

    更多相关内容
  • 药物发现综述-02-分子性质预测

    千次阅读 2021-11-25 20:45:38
    01-分子性质预测 2.神经消息传递网络 3.消息传递的阶段 4.读取函数 5.自监督学习 6.图神经网络的预训练策略 7.图神经网络的预训练策略 8.信息图:无监督的整个图表示学习 9.信息图:无监督的整体图形...

    在这里插入图片描述

    01-分子性质预测
    在这里插入图片描述
    在这里插入图片描述
    2.神经消息传递网络
    在这里插入图片描述
    在这里插入图片描述
    3.消息传递的阶段
    在这里插入图片描述
    在这里插入图片描述
    4.读取函数
    在这里插入图片描述
    在这里插入图片描述
    5.自监督学习
    在这里插入图片描述
    6.图神经网络的预训练策略
    在这里插入图片描述
    7.图神经网络的预训练策略
    在这里插入图片描述
    8.信息图:无监督的整个图表示学习
    在这里插入图片描述
    9.信息图:无监督的整体图形表示学习
    在这里插入图片描述
    10.半监督的图表示学习
    在这里插入图片描述
    11.半监督的图表示学习
    在这里插入图片描述
    12.总结
    在这里插入图片描述

    展开全文
  • 基于循环神经网络(RNN)预测分子性质 导入库 from rdkit import Chem from rdkit.Chem.Crippen import MolLogP import numpy as np import torch import time 载入数据,计算分子指纹和描述符 maxlen = 64 with ...
  • 2020年2月,北京智源人工智能研究院、专注于AI驱动药物研发的科技企业晶泰科技、数据评测平台biendata,共同发布了“智源小分子化合物性质预测挑战赛”,并同步开放了评测竞赛,总奖金10万元。本次比赛要求选手根据...

    人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点。同时,我们知道,药物研发过程是极为浩大、严谨的科学研究,例如目前正处于临床验证阶段的瑞德西韦,虽然已经经历了多年的研究,但仍需从临床上确定其对新冠病毒是否有疗效。面对疫情的紧急与找到有效治疗药物的迫切需求,如何以新技术加速药物研发也成为行业讨论的焦点。

     

    著名的医学期刊JAMA的一篇调查论文显示,研发一款癌症药物的成本在6.48亿美元左右[1]。 其中,大量时间和成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,而机器学习技术的出现极大地辅助了计算机辅助药物设计的进步。因此,化学信息学或药物研发领域开始使用各种机器学习技术,包括SVM [3]、随机森林 [4]和深度学习 [5][6] ,以及图神经网络[7]等。不过,相关技术仍有提升空间,人工智能、化学和生物医学领域也在探索新的技术发现方法。

     

    2020年2月,北京智源人工智能研究院、专注于AI驱动药物研发的科技企业晶泰科技、数据评测平台biendata,共同发布了“智源小分子化合物性质预测挑战赛”,并同步开放了评测竞赛,总奖金10万元。本次比赛要求选手根据从小分子结构中提取的3177个维度特征,预测对于药物发现和开发有重要意义的六个化学性质。本次比赛希望鼓励更多的程序员与算法爱好者发挥计算之所长,通过运用公开数据库或者文献数据与成果,探索如何以AI助力药物研发,为加速新药研究贡献一份力量。

     

    智源小分子化合物性质预测挑战赛-赛址:

    https://biendata.com/competition/molecule/

     

    比赛背景

    药物研发一直是一项要花费大量时间、人力和财力的工作。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,但是需要消耗较多的计算资源。如何利用已有数据建立优质的机器学习模型,让预测逼近真实结果,将帮助虚拟药物设计找到准确度和成本的平衡点。化学信息学和机器学习在药物研发中的应用已经有一定的历史,在最近以深度学习为前沿的AI潮流下,行业正在探索人工智能技术在药物发现中更广泛的应用场景。

    比赛任务

    目前,小分子药物占据市场主流,如果能根据结构提前预测小分子的性质,将减少药物的研发成本, 在化学研究和制药领域产生重要应用。
     

    本次比赛的任务是根据从小分子结构中提取的3177个维度特征,预测小分子的以下六个化学性质:

    ‘Dipole Moment’,

    ‘HOMO energy’,

    ‘LUMO energy’,

    ‘zero-point vibrational energy’,

    ‘atomization energy at zero kelvin’,

    ‘atomization energy atroom temperature’。

    这六个性质的准确预测对于药物的发现和开发将提供重要价值。

     

    数据描述

    本次数据集来自GDB-17标准数据集,这是由1660亿个有机分子组成的小分子化学空间,由波恩大学提供[8]。该化学空间里面的所有分子包含的重原子(即C、S、O、N等原子)少于17个。此后,Raghunathan Ramakrishnan等人通过理论化学方法测算了其中133,885 个小分子的性质[9]。为了便于没有化学领域知识的选手参与比赛,本次比赛的联合主办方晶泰科技从小分子结构中提取出3177个相关的分子描述符和分子指纹,作为数据的输入特征。
     

    训练集

    训练集数据集为csv文件,数据包括80331个分子的信息。其中第一列为分子ID,第2列至3178列为分子的3177个分子描述符和分子指纹,作为数据的输入特征。第3179列至3184列是待预测的分子性质。
     

    验证集

    验证集和训练集格式类似,但是没有最后6列分子性质,需要选手预测。
     

    测试集

    测试集和验证集格式相同。测试集将于比赛结束前发布,选手需要在48小时内提交测试集的预测结果。测试集分数将最终决定比赛成绩。
     

    样例提交文件

    样例提交包括1列分子ID和6列待预测的分子性质。

     

    参考文献

    [1] Prasad, Vinay, and Sham Mailankody. “Research and DevelopmentSpending to Bring a Single Cancer Drug to Market and Revenues after Approval.” JAMAInternal Medicine 177.11 (2017): 1569-1575.

    [2] Lavecchia, Antonio. “Machine-learning Approaches in DrugDiscovery: Methods and Applications.” Drug Discovery Today 20.3 (2015):318-331.

    [3] Burbidge, Robert, et al. “Drug Design by Machine Learning:Support Vector Machines for Pharmaceutical Data Analysis.” Computers & Chemistry26.1 (2001): 5-14.

    [4] Ballester PJ, Mitchell JBO. A Machine Learning Approach toPredicting Protein-ligand Binding Affinity with Applications to MolecularDocking. Bioinformatics 2010, 26:1169–1175.

    [5] Mitchell, John BO. “Machine Learning Methods inChemoinformatics.” Wiley Interdisciplinary Reviews: Computational MolecularScience 4.5 (2014): 468-481.

    [6] Ekins, Sean. “The Next Era: Deep Learning in PharmaceuticalResearch.” Pharmaceutical Research 33.11 (2016): 2594-2603.

    [7] Liu, Ke, et al. “Chemi-Net: aMolecular Graph Convolutional Network for Accurate Drug Property Prediction.” InternationalJournal of Molecular Sciences 20.14 (2019): 3389.

    [8] Ruddigkeit, L., van Deursen, R., Blum, L. C. &Reymond, J.-L. “Enumeration of 166 Billion Organic Small Molecules in theChemical Universe Database GDB-17”. J. Chem. Inf. Model. 52, 2864–2875(2012).

    [9] Ramakrishnan, Raghunathan, et al. “Quantum ChemistryStructures and Properties of 134 Kilo Molecules.” Scientific Data 1(2014): 140022.


      

    智源人工智能系列竞赛

     

    2019 年 9 月,智源人工智能算法大赛正式启动。本次赛事由北京智源人工智能研究院主办,爱数智慧、清华大学、北京大学、中科院计算所、旷视、知乎、晶泰科技等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。

     

    北京智源人工智能研究院院长、北京大学教授黄铁军介绍:智源的中心任务是在北京建成全球最优的人工智能创新生态,核心是选拔培育人工智能顶尖人才和发展潜力大的青年学术英才。研究院副院长刘江也表示:“我们希望不拘一格来支持人工智能真正的标志性突破,即使是本科生,如果真的是好苗子,我们也一定支持。”而人工智能大赛就是发现有潜力的年轻学者的重要途径。

     

    本次智源人工智能算法大赛有两个重要的目的,一是通过发布数据集和数据竞赛的方式,推动基础研究的进展。特别是可以让计算机领域的学者参与到其它学科的基础科学研究中。二是可以通过比赛筛选、锻炼相关领域的人才。

    晶泰科技

     

    晶泰科技(XtalPi)是一家以计算驱动创新的药物研发科技公司,基于前沿计算物理、量子化学、人工智能与云计算技术,为全球创新药企提供智能化药物研发服务。我们希望通过提高药物研发关键环节的效率与成功率、降低研发成本,为患者带来更多优质的药物。晶泰科技创立于麻省理工学院(MIT)校园,核心团队由来自学术界、IT互联网界及医药产业界的优秀人才组成。晶泰科技已经成功为来自美国、欧洲、中国、日本的40余家先锋药企提供了药物研发服务。

    正在角逐的比赛

     

    戳阅读原文前往报名

    展开全文
  • Geometry-enhanced molecular representation learning for property prediction | GeoGNN | GEM ① 提出了一种基于几何的GNN来编码分子的拓扑...③ 在各种分子性质数据集上对GEM进行全面评估,GEM的表现优于基准模型。

    这周读了一篇有关分子性质的文章《Geometry-enhanced molecular representation learning for property prediction》,文章于2022.2.7发表在 Nature Machine Intelligence 期刊上,期刊属于计算机 人工智能1区,3年平均IF为15.508。文章的创新点在于将3D信息(键长、键角、原子之间的距离)应用到分子表示当中。
    文章源码:https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM
    采用的框架为 paddlepaddle。

    1 Introduction

    1.1 背景

    随着DNN的发展,分子表征学习展现出了巨大的优势,其在分子性质预测方面的应用也越来越广泛,它将原子和键的拓扑结构视为一个图形,并将每个元素的信息传播到其邻域。
    最近的研究开始在自监督方法中使用大规模未标记分子来预先训练分子表征,然后使用少量标记分子来微调模型。但现有的自监督技术只考虑分子的拓扑信息,忽略了分子的几何结构(3D结构)。

    1.2 本文工作

    本文提出了一种新的几何增强分子表征学习方法(GEM)。
    ①首先,为了使信息传递对几何体敏感,本文通过设计基于几何体的GNN体系结构(GeoGNN),同时对原子、键和键角的影响进行建模。
    该体系结构由两个图组成:第一个图将原子视为节点,键视为边,而第二个图将键视为节点,键角视为边。
    ②其次,对GeoGNN进行预训练,从具有粗糙三维空间结构的大分子中学习化学定律和几何,设计各种几何级别的自监督学习任务。
    ③最后,为了验证所提出的GEM的有效性,在15个分子性质预测基准上将其与几个最先进的(SOTA)基线进行了比较,其中GEM获得了14个SOTA结果。

    geometry-enhanced molecular representation learning method (GEM)
    几何增强分子表示学习方法(GEM)
    Geometry-based GNN architecture (GeoGNN)
    基于几何的GNN结构(GeoGNN)

    2 GEM框架

    2.1 Geometry-based GNN architecture (GeoGNN)(对应3.2)

    本文提出了GeoGNN,它通过模拟 原子-键-角度 关系来编码分子的几何结构信息。如图,左侧为atom–bond graph G=(V,ε),右侧为bond–angle graph H=(ε,A),其中V是原子集,ε是化学键集,A是键角集。
    在这里插入图片描述

    原子键图G中,化学键被视为连接原子的边。
    键角图H中,键角被视为边,键角连接两个化学键和三个原子。

    将 xu 作为原子u的初始特征,xuv 作为边(u,v)的初始特征,xuvw 作为键角(u,v,w)的初始特征。
    将原子键图G和键角图H,原子特征、键特征和键角特征作为GeoGNN的输入,GeoGNN迭代学习原子和键的表示向量。对于第k次迭代,原子u和键(u,v)的表示向量分别用 hu 和 huv 表示。
    为了连接原子键图G和键角图H,键的表示向量被视为G和H之间的通信链路。
    step1:在键角图H中聚合相邻 键与键角 的信息来学习键的表示向量。
    step2:在原子键图G中聚合相邻 原子与键 的消息来学习原子的表示向量。
    step3:最后,通过聚合原子的表示来获得分子表示 hG。
    (公式详见方法部分)

    2.2 Geometry-level self-supervised learning tasks

    为了进一步提高GeoGNN的泛化能力,本文提出了三个几何级的自监督学习任务来预训练GeoGNN,分别是:
    (1)键长预测;
    (2)键角预测;
    (3)原子距离矩阵预测。
    其中,键长和键角用于描述局部空间结构,而原子距离矩阵用于描述全局空间结构。

    2.2.1 局部空间结构

    键长和键角是最重要的分子几何参数。其中,键长是分子中两个连接的原子之间的距离,反映原子之间的键强度;键角是两个连续键(包括三个原子)的角度,描述分子的局部空间结构。为了学习局部空间结构,本文构建了预测键长和键角的自监督学习任务。
    预测局部空间结构的任务可以看作是一个节点级的自监督学习任务。
    step1:对于一个分子,随机选择15%的原子,对于每个选定的原子,提取该原子的一跳邻域,包括相邻的原子和键,以及该选定原子形成的键角;
    step2:在一跳邻域中屏蔽这些原子、键和键角的特征。在GeoGNN的最终迭代中,提取的原子和键的表示向量 用于预测提取的键长与键角。
    本文设计了一个回归损失函数来惩罚预测的键长/键角和标签之间的误差。(公式详见方法部分)
    在这里插入图片描述

    图:基于键长与键角的自监督学习任务
    左边图G,右边图H。
    图G中的黑色圆圈代表选定的原子,灰色圆圈代表相邻的屏蔽原子,灰色线条代表相邻的屏蔽键;
    图H中的灰色椭圆也代表相邻的屏蔽键,灰色线条代表相邻的屏蔽键角。

    2.2.2 全局空间结构

    除了学习局部空间结构的任务外,本文还设计了学习全局分子几何的原子距离矩阵预测任务。
    本文根据原子的三维坐标为每个分子构造原子距离矩阵,然后预测距离矩阵中的元素。注意,对于具有相同拓扑结构的两个分子,相应原子之间的空间距离可能会有很大差异。(损失函数在方法部分)
    在这里插入图片描述

    图:具有相同拓扑但不同几何形状的两种立体异构体之间的比较。对于左边的图, Cl-C-C 的角度为121°,对于右边的图, Cl-C-C 的角度为125°。
    立体异构体:分子中原子或原子团互相连接次序及键合物质均相同,但空间排列不同而引起的异构体称为立体异构体。

    因此,对于一个分子,本文没有将预测原子距离矩阵作为一个回归问题,而是将其作为一个多分类问题,通过以相等的步幅将原子距离投影到30个二进制表示中,也就是one-hot。有关设计损失函数的详细信息在方法部分。
    为了预训练GeoGNN,本文通过总结相应的损失函数来考虑每个分子的局部空间结构和全局空间结构。
    预测键长与原子距离的区别:预测键长的任务可以看作是预测原子距离任务的一个特例,但键长预测更关注局部空间结构,而原子距离更关注全局空间结构的分布。

    3 方法

    GNN是一种消息传递神经网络,给定节点v,它在第k次迭代中的表示向量 hv(k) 为:

    消息传递神经网络,message passing neural networks,MPNN,作者将应用于图上的监督学习框架称之为消息传递神经网络

    在这里插入图片描述
    最后使用READOUT函数来整合节点信息,得到图的表示 hG :
    在这里插入图片描述

    aggregate() 是用来聚合来自节点临域的消息的 聚合函数;
    combine() 是用来更新节点表示的 更新函数。
    readout是一个置换不变的池函数,比如求和 和 最大化

    3.2 GeoGNN(对应2.1)

    step1:在键角图H中聚合相邻 键与键角 的信息来学习键的表示向量。
    键,也就是边(u,v),在第k次迭代中的表示向量 huv(k) 为:
    在这里插入图片描述
    step2:在原子键图G中聚合相邻 原子与键 的消息来学习原子的表示向量。
    原子u在第k次迭代中的表示向量 hu(k) 为:
    在这里插入图片描述

    键的信息 huv 是从键角图 H 中学习的,然后更新原子u的表示向量。

    step3:在最后一次迭代的时候,通过聚集原子的表示来获得分子表示 hG,hG 用来预测分子的性质。
    在这里插入图片描述

    3.3 Geometry-level self-supervised learning tasks

    3.3.1 局部空间结构

    局部空间信息的自监督任务用于学习两个重要的分子几何参数:键长和键角。本文设计了一个回归损失函数来惩罚预测的 键长/键角 与 标签之间的误差,其定义如下:
    在这里插入图片描述

    3.3.2 全局空间结构

    全局空间信息的自监督任务用于学习 所有原子对 之间的原子距离矩阵,距离矩阵中的每个元素都是两个原子之间的三维距离,用 duv 来表示分子中原子u和原子v之间的距离,损失函数如下:
    在这里插入图片描述

    4 实验

    4.1 Basic Setting

    ①数据集
    预训练:Zinc15
    分子性质预测:MoleculeNet

    ②GNN结构:使用GIN中定义的聚合函数与组合函数,然后加上残差连接、层归一化、图归一化 来进一步提高性能,使用平均池化作为ReadOut来获取图表示。

    ③评估指标
    分类:ROC-AUC
    回归:RMSE 与 MAE
    在这里插入图片描述

    RMSE(FreeSolv、ESOL和Lipo)
    MAE:Mean Absolute Error平均绝对值误差,预测值与实际值的差值求绝对值,求和取平均(QM7、QM8和QM9)

    4.2 实验结果——①所有任务的总体性能

    表格
    ①最好的结果用黑体表示,括号内是偏差
    ②ToxCast 与 PCBA 上的N-Gram太耗时,无法按时完成
    ③回归的结果越小越好(因为是差值),分类的结果越大越好

    结果解读
    ①在15个数据集的14个中都取得了最先进的结果。
    ②在回归任务上,与之前最先进的结果相比,平均提升为8.8%;分类任务上的提升为4.7%。
    ③在分类任务上提升更大,可能是因为回归数据集侧重于预测 与分子几何形状高度相关的 量子化学性质。
    在这里插入图片描述

    模型:
    D-MPNN:无pre-training;
    AttentiveFP:无pre-training;
    N-Gram:有pre-training。在图中以短距离行走的方式组装节点嵌入,然后利用随机森林或XGBoost来预测分子特性。
    PretrainGNN:有pre-training。同时在节点水平和整个图的水平上预训练GNN,使GNN能够同时学习到有用的局部和全局表示。
    GROVER base:有pre-training。通过两个自监督任务将GNN集成到Transformer中。base和large是不同的网络容量。
    GEM:本文,geometry-enhanced molecular representation learning method ,几何增强分子表示学习方法

    数据集:
    回归:
    ESOL::由实验水溶性数据组成。(由1128种水溶解度数据组成,直接从化合物的结构计算。化合物以SMILES表示,因此不包含分子中原子空间排列的信息)
    FreeSolv:是水中水合自由能的数据集。(结构信息包含在SMILES字符串中)
    Lipo:Lipophilicity,亲脂性数据集,指的是分子在非极性溶剂中的溶解能力。

    分类:
    BACE:BACE数据集提供了一组人类b-分泌酶1(BACE-1)抑制剂的定量(IC50)和定性(二元标记)结合结果
    BBBP:血脑屏障渗透(Blood Brain Barrier Penetration,简称BBBP)数据集来自最近关于屏障渗透性建模和预测的研究。作为分隔循环血液和脑细胞外液的膜,血脑屏障可阻断大多数药物、激素和神经递质。因此,屏障的渗透在以中枢神经系统为靶点的药物开发中形成了一个长期存在的问题。该数据集包括超过2000种化合物的渗透性特性的二进制标签。
    ClinTox:ClinTox数据集比较了FDA批准的药物和由于毒性原因未能通过临床试验的药物。该数据集包括1491种化学结构已知的药物化合物的两个分类任务:(1)临床试验毒性(或无毒性)和(2)FDA批准状态
    SIDER:副作用资源(Side Effect Resource,简称SIDER)是已上市药物和药物不良反应(Adverse Drug Reactions,简称ADR)的数据库。DeepChem56中的SIDER数据集版本按照MedDRA(Medical Dictionary for Regulatory Activities,国际医学用语词典)分类,将药物副作用分为27个系统器官类别,对1427种已批准的药物进行了测量。
    Tox21:“21世纪毒理学”(Toxicology 21,简称Tox21)倡议创建了一个测量化合物毒性的公共数据库,该数据库已用于2014年Tox21数据挑战赛。该数据集包含8014种化合物对12个不同目标的定性毒性测量,包括核受体和应激反应途径。
    (12个endpoints,包括7个核受体信号和5个应激反应指标)
    ToxCast:ToxCast来自与Tox21相同的计划,它为基于体外高通量筛选的大型化合物库提供毒理学数据。MoleculeNet中处理的集合包括8615种化合物的600多个实验的定性结果。
    HIV:HIV数据集是由药物治疗计划(DTP)艾滋病抗病毒筛查引入的,该筛查测试了超过40000种化合物抑制HIV复制的能力。
    MUV:Maximum Unbiased Validation (MUV) group是选自PubChem BioAssay的标杆数据集,使用提炼的最近邻分析。MUV数据集包括17个挑战任务,约9万个化合物,它用来验证虚拟筛选技术。
    PCBA:PubChem BioAssay (PCBA)是一个包括高通量筛选得到的小分子生物活性的数据库。我们使用PCBA的子集,包括40万个化合物128个生物活性测定数据。

    4.2 实验结果——②回归任务中不同GNN结构的性能

    结果:①GeoGNN 在所有回归数据集上都大大优于其他 GNN 架构,与以往方法的最佳结果相比,整体相对提高了 7.9%;
    ②因为即使模拟了原子的三维坐标,GeoGNN 也包含几何参数。
    在这里插入图片描述

    多种GNN结构:(baseline)
    (1)常用的GNN结构:GIN、GAT和GCN;
    (2) 专为分子表示而设计的架构:D-MPNN、AttentiveFP 和 GTransformer;
    (3) 使用三维分子几何结构的模型:SGCN、DimeNet 和 HMGNN 。

    4.2 实验结果——③回归任务中不同预训练策略下GeoGNN的表现

    为了研究所提出的几何级自监督学习任务的效果,采用不同类型的自监督学习任务对回归数据集上的GeoGNN进行预训练。

    表格:“无预训练”表示无预训练的GeoGNN网络,“Geometry几何”表示我们提出的几何级别任务,“Graph图形”表示预测分子指纹的图形级别任务,“Context上下文”表示预测原子上下文的节点级别任务。

    结果:①有几何级别任务的方法比没有几何级别任务的方法要好。
    ②“几何”在回归任务中的表现优于“几何+图形”,这可能是因为分子指纹与回归任务之间的联系比较弱。
    在这里插入图片描述

    5 结论

    总结:现有的分子性质预测的预训练方法没有利用由键、键角和其他几何参数描述的分子几何结构,因此本文提出了基于几何的GNN结构(GeoGNN),并采用多几何层次的自监督学习方法来获取分子的空间知识。在多个数据集上进行了实验,GEM的表现优于其他基准方法。

    创新点:提出并应用了基于键长与键角的自监督学习。

    展开全文
  • 基于官能团的图自监督预训练策略MGSSL:首先使用BRICS和两个附加规则分割分子图,并推导出有意义的官能团词典;其次,设计了一个官能团生成预训练框架,并考虑了BFS和DFS两种顺序;此外,同时在节点级和官能团级进行...
  • AGBT-分子表示-组会PPT
  • 分子性质预测是药物发现领域的一项基本任务。对其进行准确预测的计算方法可以大大加快以更快、更便宜的方式找到更好的候选药物的整体过程。传统的预测分子性质的计算方法主要依靠提取指纹或人为设计的特征,然后与...
  • 百度飞桨凭借图学习框架(PGL)和生物计算平台螺旋桨(PaddleHelix),登顶权威榜单 OGB 多项分子性质预测任务,在 AI 药物发现领域取得新的技术突破。 化合物的生物活性筛选是现代药物研发中关键的一环,其主要...
  • 点击左上方蓝字关注我们百度飞桨凭借图学习框架 (PGL) 和生物计算平台螺旋桨(PaddleHelix),登顶权威榜单 OGB 多项分子性质预测任务,在 AI 药物发现领域取得新的技术突破...
  • 基于卷积神经网络(CNN)预测分子特性 导入库 from rdkit import Chem from rdkit.Chem.Crippen import MolLogP import numpy as np import torch import time 载入数据 maxlen = 64 with open('smiles.txt') as f...
  • 分子表示
  • 分子性质预测能够识别具有目标性质的候选分子,在药物发现中发挥着重要作用。...在已有的小样本的分子性质预测研究中,现有工作常直接使用小样本学习的经典方法,但是忽视了分子性质预测问题的特性,即在不同性质...
  • 本文使用图结构来表示分子数据,将其输入CNN以发现每个原子之间的关系。其亮点如下: ①设计了一个 卷积空间图嵌入层(C-SGEL),使用一维卷积来处理分子中每个原子的空间图矩阵;... ②结合了分子指纹进行预测
  • 展示通过神经网络用分子的特性来预测分子性质,主要内容就是介绍神经网络的原理,以及搭建神经网络的步骤和关于smiles分子式的处理。
  • MG-BERT:利用无监督原子表征学习进行分子性质预测 MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction 本文的第一作者是张小琛博士和吴诚堃研究员。主要合作者...
  • 涉及到的数据集
  • 在《预测化学分子的nlogP——基于sklearn, deepchem, DGL, Rdkit的图卷积网络模型》中简单介绍了sklearn模型的使用方法。 现在来介绍一下,如何对sklearn模型进行超参数优化。要想获得更好的模型,离不开超参数优化...
  • Transformer的encoder可以通过自监督学习策略将 大量未标记的 分子数据整合到分子表示中;...在涉及到毒性、物理化学和生理学的8个分子数据集上进行了实验,结果表明AGBT是一种最先进的分子性质预测框架。
  • GCN: Graph Convolutional Network(图卷积网络) 环境准备 Python版本:Python 3.6.8 PyTorch版本:PyTorch...基于图卷积神经网络(GCN)预测分子性质 from rdkit import Chem from rdkit.Chem.Crippen imp...
  • 【高水平】基于机器学习的高能化合物分子设计与性质预测-天津大学硕士论文2020,超过130页

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,157
精华内容 2,462
关键字:

分子性质预测