01 ChemGPT的研究缘起及有机合成化学发展历程
何晓首先介绍了华东师范大学开展研究化学大模型ChemGPT的政策背景。他指出,生物医药是事关国家重大战略的核心竞争领域,“美国生物法案”对众多国际前沿问题和卡脖子难题进行打压,包括人工智能、芯片等领域。《上海市生物医药产业发展“十四五”规划》指出,2025年生物医药产业规模会达到一万亿元以上。而生物医药与集成电路、人工智能同为上海市重点发展的三大产业。围绕国家及上海市战略需求,华东师大围绕生物医药和人工智能重点领域开展研究。
在介绍研究背景时,何晓指出,分子改变世界,合成创造价值。2020年,我国化学原料和化学制品制造业主营业务收入6.31万亿元,原料要出口357亿美元。从1828年人工合成尿素作为首例人工合成的化合物分子,到2010年钯催化的交叉偶联方法,新的研究方法和研究院范式的变革不断推动有机合成化学的发展。
何晓讲述了合成化学经历了从分子制造到分子“智”造的发展历程。指出分子智造以高质量数据收集为基础,结合机器学习,利用自动化合成平台,实现区别于传统合成模式的分子高校精准创制。通过理论计算+大数据+机器学习,以智能设计提高合成路线的精准度,进行绿色高效的自动合成提高功能分子(小分子药物)研发效率。
接下来,何晓讲述了分子智造、有机合成化学新的变革以及国际分子化学的进展情况及我国相关研究存在的问题。分子智造是有机合成化学国际竞争的新的主战场,实际上,我国在分子智造领域研究刚刚开始,与国际高水平研究有差距,目前存在的关键问题包括:首先,重要反应的特色数据库确实,缺乏自主知识产权,深度数据分析背景噪音大;第二,缺乏化学逻辑算法,理性设计和智能设计缺乏有机结合,模型与结果的可解释性不足;第三,模型砌块较为基础,缺乏结果反馈训练,解放双手却无法解放大脑。
何晓介绍了华东师范大学分子智造主要研究内容。2021年,在上海市教委的支持下,华东师范大学成立了分子智造前沿科学研究基地。主要研究内容包括:第一,分子智造基础科学研究体系的建立,主要包括新算法的开发,特色数据的构建;第二,合成化学智能设计体系的构建,进行智能设计与理性设计的融合,基于智能设计的合成路线分析与优化,面向制药行业的分子智造软件开发;第三,智能合成化学平台的建立,基于智能设计的功能分子智造,分子智造与超限智造的结合,智能设计与自动合成的联用;第四,AI导向数字化智能平台建设,此平台基于分子智造的理念,通过对不同合成领域实验过程数字化,实现利用单一平台解决合成化学中多个学科的重要科学问题。此外,作为拓展,与智能加、智能教育、科普等结合建设分子智造社会拓展平台。
02 华东师大ChemGPT 1.0模型及技术亮点 何晓概述了ChemGPT的设计路径。通过高质量数据库的构建,与逆合成模型预测,将化学反应用计算机可识别的方式表达,然后利用深度模型学习化合物之间的反应规则,预测化合物的单步反应,再基于单步模型的预测结果,利用机器学习算法自动构建多步反应路径。通过构建精确且多样的化学性质数据库,引入新的物理描述符,对分子体系全面化学性质的监督学习,发展了对各类分子体系普遍使用的全新泛函CF22D,为理论与计算化学提供新工具。何晓指出,基于大数据和机器学习训练新的密码泛函方法CF22D对弱相互作用的预测最为准确。通过发展新的物理描述符,运用人工智能方法,高精度预测化学反应机理,相关的研究发表在Nature和Science等主流期刊上。 何晓对华东师范大学ChemGPT 1.0的架构进行介绍。通过化学知识收集、化学合成反应,基于LLM模式进行预训练,通过接口开发最终进行网页、公众号、小程序等部署。ChemGPT可以进行针对化学的专业知识问答、实时查询和GPT逆合成。其数据集包含了化学、生物等自然科学的丰富数据,包含化学性质问答类数据734种,科学类(涵盖化学)问答类数据11679种,化学类问答类数据658种,包括生活常识、化学知识问答等。此外,包含维基百科词条一万多条,转换成200多万的问答数据。同时,进行反应数据库的构建,从化学反应数据库中学习潜在的反应规则,并对单步反应进行预测。当前数据库面临的挑战包括:一是数据量有限,泛化能力受限;二是标注数据的质量较低,影响模型训练和评估;三是数据偏差和样本不平衡,预测能力不足。目前采取数据集融合方式作为解决方案。 何晓分析了ChemGPT模型和技术上的亮点。第一,制作了高质量化学对话数据集,由问答类和专业背景类两部分组成;第二,针对化学领域中化合物逆合成的难题,通过数据拼接、数据叠加、数据加权和数据合成方式构建了逆合成数据库。更大规模的数据提高了反应性,高质量的标注数据提高模型的准确性和可靠性,解决数据平衡问题,提高功能分子研发效率;第三,创新对话模型和逆合成模型,多模型多模块融合技术进行集成。对话模型和逆合成模型分别基于ChatGLM和llama基座模型进行改进,使用全量微调,在A800的GPU集群上使用2个月的时间完成对模型进行微调。提出并使用了多模型多模块融合技术进行集成,但无需安装插件,能同时支持化学专业知识领域、化学逆合成、生物医疗、通用领域的知识问答,支持自动上网查资料帮助模型返回高质量实时问答、绘画功能等。 何晓还介绍了目前的一些工作进展。基于LLM的多部逆合成路线搜索,将路径搜索问题建模为优化问题,使用演化算法(EA)进行求解。基于演化算法(EA)的多步逆合成路径搜索,有两个优势:一是基于路径的纵向搜索,速度快;二是多点搜索策略,可提供多套可行方案。华东师大科研团队构建分子逆合成多步搜索模型,将路径搜索问题建模为优化问题,并利用演化算法(EA)进行求解,EA深度有限搜索策略,相比于MCTS,路径搜索时间降低34%-98%。构建自动化学合成反应技术体系,完成自动化学合成反应技术体系整体构建和框架设计,以微流控芯片为基础的化学合成实验将原反应时间缩短80%。此外,研究团队还将机器筛选与人工智能相结合,干湿迭代形成闭环,通过AI设计新的反应条件等。
声明:化学加刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 电话:18676881059,邮箱:gongjian@huaxuejia.cn