检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业新一代信息技术人工智能

AI for Science在化学领域的实践研究

供稿人:王方媛供稿时间:2023-08-08 14:02:32关键词:AIforScience,化学,人工智能,机器学习,深度学习

2018年,中国科学院院士鄂维南在全球首次提出“AI for Science”概念,强调利用AI学习科学原理、创造科学模型来解决实际问题,使之成为科学研究的新范式[1]近年来,人工智能、机器学习、深度学习AI技术在合成化学、药物化学等领域不断产生新应用,其热度变得越来越高,有望为化学领域带来革命性的变化AI在化学领域主要应用包括规划化学合成路线[1]预测溶剂分子和相应电解液性质[2]预测化学反应做的过渡态结构[3]推理密集型化学任务[4]等。

一、规划化学合成路线

20183月,上海大学Mark Waller团队在Nature》期刊上发表题为利用深度神经网络和符号AI规划化学合成的文章[2]。研究团队收集了截止到2014年发表过的几乎所有的化学反应,加起来大约有1250万个反应。研究团队应用深度神经网络及蒙特卡洛树算法3N-MCTS,成功地规划了新的化学合成路线。即便是权威的合成化学专家,也无法区分这款软件与人类化学家之间的区别。

二、预测溶剂分子和相应电解液性质

在能源行业,国家碳中和目标的提出对储能技术提出了更高要求。传统的锂离子电池储能技术虽仍占据主导,但其能量密度难以满足社会高速发展对能源的需求,电解液作为锂离子电池中离子传输的载体发挥着关键作用。清华大学化工系教授张强表示,人工智能技术能够加速先进电解液的设计开发与实践,传统的实验员一次往往只能做一个实验,但现在通过多次高通量的实验可以使几十乃至上百个实验通过一个样品实现。另外,传统的电解液溶剂开发效率不高,在张强团队建立了机器学习的模型后,通过训练机器学习模型来预测溶剂分子和相应电解液性质,并在实验中验证反馈机器学习模型的结果,不仅对电解的属性有了深入理解,也能利用模型预测电解液性质,为选择合适的电解液提供有效方法。该研究成果在2022年发表在《Chemical Reviews》上[3]

三、预测化学反应做的过渡态结构

过渡态 Transition stateTS) 对于理解化学反应的机制和探索反应网络至关重要。尽管计算方法取得了重大进展,但由于构建初始结构的困难和高昂的计算成本,TS 搜索仍然是一个具有挑战性的问题。来自韩国科学技术信息研究院(Korea Institute of Science and Technology Information)的 Sunghwan Choi,提出了一种用于预测一般有机反应的 TS 结构的机器学习 (ML) 模型[4]。所提出的模型从反映反应物、产物和线性插值结构的原子对特征中推导出 TS 结构的原子间距离。该模型表现出出色的准确性,特别是对于发生键形成或断裂的原子对。预测的 TS 结构在量子化学鞍点优化方面取得了很高的成功率。该研究成果在2022年发表在Nature Communications》期刊上。

四、推理密集型化学任务

20234月,来自洛桑联邦理工学院EPFL)和罗切斯特大学的研究人员开发了 ChemCrow[5],一种大型语言模型(LLM)化学智能体,旨在完成有机合成、药物发现和材料设计等各种任务。通过集成 13 种专家设计的工具,ChemCrow 增强了 LLM 在化学方面的表现,并出现了新的功能。该研究通过 LLM 和专家人工评估,证明了 ChemCrow 在自动化各种化学任务方面的有效性。

化学领域国内外基础科学研究所采用的典型模型(包括模型解决的问题)及其语料集见表1。     

1 化学领域国内外基础科学研究所采用的典型模型及其语料集

序号

模型名称

解决的问题

基础语料描述

链接

是否开源

1

用于预测化学反应做的过渡态(TS)结构的机器学习模型

预测化学反应做的过渡态(TS)结构,推断一般单步反应的 TS 结构的 ML 模型,并用于查找产生目标反应物和产物的多个 TS

Grambow 等人发布的有机反应数据库
该数据集包含有关数据描述符中描述的数据的关键特征,即基于量子化学的基本化学反应的反应物、产物和过渡态

https://springernature.figshare.com/

2

TSGen

预测化学反应做的过渡态(TS)结构,使用图神经网络根据反应物和产物结构的原子间距离生成初始原子间距离和权重矩阵,用内部非线性优化来寻找原子间距离矩阵最接近初始矩阵的原子位置

Grambow 等人发布的有机反应数据库
该数据集包含有关数据描述符中描述的数据的关键特征,即基于量子化学的基本化学反应的反应物、产物和过渡态

https://springernature.figshare.com/

3

TSNet

预测化学反应做的过渡态(TS)结构,基于张量场网络,应用球谐函数作为卷积滤波器来区分相对原子位置并直接预测 TS 结构的原子位置

Grambow 等人发布的有机反应数据库
该数据集包含有关数据描述符中描述的数据的关键特征,即基于量子化学的基本化学反应的反应物、产物和过渡态

https://springernature.figshare.com/

4

用于预测溶剂分子和相应电解液性质的机器学习模型

预测溶剂分子和相应电解液性质,加速先进电解液的设计开发与实践

数据集是基于 AIMD 模拟构建的。通过处理数据集中的元素类型、原子坐标和力来生成代表性描述符,然后将其输入到机器学习(ML)算法中作为典型的回归训练

 

 

5

3N-MCTS(用于规划化学合成的深度神经网络及蒙特卡洛树算法)

规划新的化学合成路线

Reaxys 化学数据库
Reaxys是由化学专家们在充分考虑到化学工作者的科研流程,以及使用习惯后开发设计出的,面对大化学科研领域的,在线信息解决方案。

https://www.reaxys.com/#/search/quick

6

heuristic BFS(启发式最佳优先搜索算法)

规划新的化学合成路线

Reaxys 化学数据库

Reaxys是由化学专家们在充分考虑到化学工作者的科研流程,以及使用习惯后开发设计出的,面对大化学科研领域的,在线信息解决方案。

https://www.reaxys.com/#/search/quick

7

neural BFS(神经网络启发式最佳优先搜索算法)

规划新的化学合成路线

Reaxys 化学数据库

Reaxys是由化学专家们在充分考虑到化学工作者的科研流程,以及使用习惯后开发设计出的,面对大化学科研领域的,在线信息解决方案。

https://www.reaxys.com/#/search/quick

8

ChemCrow

一种 大型语言模型(LLM 化学智能体,旨在完成有机合成、药物发现和材料设计等各种任务。ChemCrow 是一个开源软件包,用于准确解决推理密集型化学任务。

它是用 Langchain 构建的,使用了一系列化学工具,包括 RDKitpaper-qa 以及一些化学相关数据库,如 Pubchem ChemSpider

Pubchem ChemSpider

PubChem是美国国立卫生研究院 (NIH)的开放化学数据库。PubChem 主要包含小分子,但也包含较大分子,如核苷酸、碳水化合物、脂质、肽和化学修饰的大分子。我们收集有关化学结构、标识符、化学和物理特性、生物活性、专利、健康、安全、毒性数据等的信息。

 

ChemSpider是英国皇家化学学会的一个免费的化学结构数据库,提供对来自数百个数据源的超过 1 亿个结构的快速文本和结构搜索访问。

https://pubchem.ncbi.nlm.nih.gov/docs/about

 

http://www.chemspider.com/

 

 

参考文献

[1] AI for Science:科学研究新范式(2023-05-10).http://www.news.cn/globe/2023-05/10/c_1310715935.html.

[2] Segler, M., Preuss, M. & Waller, M. Planning chemical syntheses with deep neural networks and symbolic AI. Nature 555, 604–610 (2018). https://doi.org/10.1038/nature25978

[3] Yao N , Chen X , Fu Z H ,et al.Applying Classical, Ab Initio, and Machine-Learning Molecular Dynamics Simulations to the Liquid Electrolyte for Rechargeable Batteries[J].Chemical Reviews, 2022(12):122.

[4] Choi, S. Prediction of transition state structures of gas-phase chemical reactions via machine learning. Nat Commun 14, 1168 (2023). https://doi.org/10.1038/s41467-023-36823-3

[5] Bran A M, Cox S, White A D, et al. ChemCrow: Augmenting large-language models with chemistry tools[J]. arXiv preprint arXiv:2304.05376, 2023.