欢迎来到化学加!萃聚英才,共享化学!化学加,加您更精彩!客服热线:400-8383-509

化学加_合成化学产业资源聚合服务平台

Frank Glorius团队的最新算法(EvoMPF):解锁分子指纹

来源:化学加原创      2024-03-07
导读:近日,德国明斯特大学Frank Glorius团队提出了一种通用算法,基于给定的数据集生成高度特定的表示形式。该算法利用结构查询和进化算法生成独特的分子指纹。这些分子指纹能够准确预测其物理性质、化学反应性和生物活性,非常适用于分子机器学习。提高了分子的可解释性,可以提取出反应性趋势等信息。多模式的算法(EvoMPF)将被用于发现不同分子科学中的未知结构与目标的关系。相关成果发表在Chem上,文章链接DOI: 10.1016/j.chempr.2024.02.004。

image.png

(图片来源:Chem)

正文

机器学习(Machine Learning, ML)即应用程序在无需人工参与的情况下,执行流程改进,并按需更新代码、扩展功能。机器学习可应用在图像识别、语音识别、交通预测、产品推荐、自动驾驶汽车、垃圾邮件和恶意软件的过滤、虚拟的个人助理(如:Siri,小度)、股市交易、医学诊断以及自动语言翻译(Fig. 1)。下载化学加APP到你手机,收获更多商业合作机会。

 

image.png
Fig. 1.  Machine learning types

(图片来源:Google)

机器学习在化学科学中也得到广泛应用,从药物发现、化合物性质预测再到合成路线的设计等(Fig. 2ACell2020180, 688; Chem. Soc. Rev., 199524, 279; Nature2018555, 604)。然而,将化学分子转化为计算机可读的数据仍然是一个挑战,这需要考虑数据集、输入和模型之间的复杂关系。尽管已经开发了一些表示方法,但由于应用的多样性,目前仍然存在一些挑战(Chem. Soc. Rev., 202049, 6154; Chem20206, 1379; Nature2019571, 343; Science2018360, 186; Nat. Mach. Intell.20202, 573)。Frank Glorius提出一个理想的解决方案应该具备高适应性、普适性、预测性能以及可解释性(Fig. 2B),Glorius教授呼吁开发一种跨越不同分子科学领域应用的通用方法,以提高预测准确性和解释性。

image.png

Fig. 2.  Different fields of application and molecular representations for molecular machine learning

(图片来源:Chem)

Glorius团队开发了一种新算法—EvoMPF,用于生成表示分子。这个方法旨在解决机器学习在研究化学问题时遇到的挑战,特别是在特征化过程中过度拟合的情况。Glorius提出了一种灵活的分子查询语言(SMARTS),该语言可以查询该化合物的属性(例如杂化、电荷和手性)以及邻近原子数。经过迭代、评估训练和调整优化,可以生成用于描述分子的分子指纹(MPFs)。进化算法利用随机生成和突变来生成新的模式,通过训练机器学习模型来评估每个MPF的性能。用CatBoost做为机器学习模型,在机器学习的每次迭代进化中MPF都能丰富相关的数据集,而整体上不发生对数据集的过度调整,从而产生高度可解释且密集的分子表示,这种就是EvoMPF。Glorius和团队成员通过这种方法生成的分子具有高度的解释性,且不会过度拟合数据(Fig. 3)。

image.png
Fig. 3.  Working principle of the EvoMPF algorithm

(图片来源:Chem)

优化和产率预测:定量产率预测需要考虑分子的组合性质、目标产物的复杂性以及数据样本过少的问题。他们指出用于定量预测还必须考虑过拟合的问题,必须通过统计探测方法评估模型的泛化能力以及影响。用于测试算法性能的Doyle-Dreher数据集,包含了大量的Buchwald-Hartwig交叉偶联反应数据(Fig. 4A)。在这个数据集中,有多种芳基卤化物、钯催化剂和碱与多种异噁唑酮添加剂的组合。为了评估模型对新化合物的泛化能力,使用了样本外(OOS)的数据集来进行测试(Fig. 4B)。基于进化算法生成和优化描述分子结构的分子指纹(MPFs)。他们使用SMARTS语言来定义查询分子,然后EvoMPF随机生成和优化这些模式,以描述数据集的关键特征。通过在每次迭代中评估预测性能,他们证明了进化算法能够有效地完成该分子的产率预测。在进行了一系列实验后,发现使用二进制特征在组合数据集上查询只需少量数据点即可获得出色的预测性能。这表明了所需特征数量减少,该方法可以快捷的找到合适的描述符(Fig. 4C)。该研究还发现使用二进制特征只需要256个模式就能够获得出色的预测性能,尽管使用32个模式就足以获得类似的性能(Fig. 4D)。在研究中,Glorius还指出他们的方法在大多数测试中略微优于复杂的深度学习模型(Deep Learning)和人工设计的指纹。这突显了无特征的重要性,以及该方法在产率预测时的有效性(Fig. 4E)。

image.png

Fig. 4.  Optimization and performance of the MPF on the Doyle-Dreher reaction dataset

(图片来源:Chem)

应用范围:该研究还了测试EvoMPF在各种反应数据集上的性能。由Richardson和Sach发表的一个数据集包括5,760个Suzuki-Miyaura交叉偶联反应(Fig5A)。尽管已表明这个数据集是可预测的,但目前为止,还没有方法证明可以将机器学到的规则转移到之前未见过的结构上。由于EvoMPF可以轻松应用于小型的数据集,因此没有进一步耗时优化,使进化和模型参数保持不变。在这些OOS数据集上依旧获得了较高的预测准确度。有趣的是,在排除所有使用P(OTol)3和SPhos作为配体反应的OOS分割中,统计对照(即OHE)的表现甚至比EvoMPF好,这表明这些配体对产率没有很大的影响。之后,还对手性磷酸催化剂催化生成不对称N, S-缩醛数据集进行了对映选择性的预测,EvoMPF的表现优于相应的统计对照,并且与更复杂的多特征指纹(Fig. 5B)以及差异反应指纹(DRFPs)相当。

image.png

Fig. 5.  Performance of the MPFs on different quantitative reaction prediction tasks

(图片来源:Chem)

随着EvoMPF在小型数据集上表现出的准确性和稳定性,研究还测试了该算法在不同的分子预测任务上的普适性。该研究对药理学终点的预测,特别是LD50的预测表现出色(Fig. 6A)。研究使用了多个来源的数据集其中包含了大量化合物数据,并进行了对比实验以验证EvoMPF相对于传统方法的优越性(Fig. 6B)。结果表明,EvoMPF能够有效地处理复杂的预测任务,展现出了极高的稳定性。接着将EvoMPF应用于QSAR/QSPR领域的四个基准数据集(Fig. 6E),这些数据集涵盖了不同的任务和分子特性。通过测试(HIV病毒的复制能力、分子的量子力学性质),证明EvoMPF在各种任务中的稳健性和性能优势,甚至在某些情况下超过了图神经网络(GNN)的性能,这表明EvoMPF在不同领域和任务中的广泛适用性。

image.png

Fig. 6.  Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks

(图片来源:Chem)

可解释和解释性人工智能:在毒性预测的数据库中,研究发现某些元素的PAPs查询数量与其平均毒性、毒性方差以及含有这些元素数据点的数量之间存在着强烈的相关性,这突显了EvoMPF的可解释朝着识别相关化合物的方向发展。随后,研究将EvoMPF应用于Buchwald-Hartwig数据集中,验证其生成的特征是否能够捕获已知的反应趋势。通过与人共设计的查询相比较,他们发现EvoMPF生成的查询不仅考虑到了人类设计的结构特征,还捕捉到了更加微妙的反应性趋势,例如特定配体对反应产率的影响(Fig. 7B)。这证明了EvoMPF生成的特征对化学结构与反应性有更深层的理解。总的来说,通过EvoMPF生成的特征具有直接的可解释性,并且能够反映化学结构与反应性之间的复杂关系,这使得研究人员能够直接从数据中洞察整个反应流程,而无需额外的模型分析。

image.png

Fig. 7.  Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI

(图片来源:Chem)

总结

在这项工作中,Glorius研究团队提出了EvoMPF作为一种全面且高度适应性的方法,用于生成表示分子。结合了结构查询、进化算法和高性能的机器学习模型,形成一个平台,能够为给定的分子数据集找到特定于问题的指纹。通过测试和优化,发现EvoMPF能够适应任何大小、多样性的分子数据集,并且能够应对各种分子挑战,从QSPR到QSAR应用都有良好的表现,突显了信息的高度密集性和人工智能的力量。此外,EvoMPF生成的指纹不仅可解释,还能够推导出(生物)化学知识,使人工智能在可解释的领域具有广泛的应用。当然,该算法同样具有限制,对于过渡金属配合物、盐类、各种材料、平面和轴手性的化合物并不适用。然而,在分子科学领域,EvoMPF将为从给定的数据集提取知识开辟新篇章,可以发现不同分子学科未知的结构与目标的关系。

文献详情:

Philipp M. Pflüger, Marius Kühnemund, Felix, Katzenburg, Herbert Kuchen, Frank Glorius*
An Evolutionary Algorithm for Interpretable Molecular Representations
Chem, 2024, https://doi.org/10.1016/j.chempr.2024.02.004 

image.png

长按扫码,查看原文


声明:化学加刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 电话:18676881059,邮箱:gongjian@huaxuejia.cn