投稿问答最小化  关闭

万维书刊APP下载

校企合作,最新《Science》,为化学反应条件筛选加速度!

2023/9/7 9:28:07  阅读:42 发布者:

机器学习模型:预测钯催化碳氮偶联的底物适应性条件

机器学习方法在加速确定化学转化的反应条件方面具有巨大潜力。伊利诺伊大学厄巴纳-香槟分校的Scott E. Denmark院士联合F. Hoffmann-La Roche公司的Serena FantasiaRaphael Bigler共同介绍了一种为钯(Pd)催化的碳氮(C-N)偶联反应提供基质适应性条件的工具。该工具的设计和构建需要生成一个实验数据集,以探索一组反应条件下反应物配对的多样化网络。通过系统的实验设计过程,神经网络模型主动学习了大量的 C-N 偶联。模型在实验验证中表现出良好的性能:从一系列偶联反应中分离出了10种产物,产率超过 85%。重要的是,随着数据量的增加,开发的工作流程不断提高了工具的预测能力。相关成果以“A machine-learning tool to predict substrate-adaptive conditions for Pd-catalyzed CN couplings”为题发表在《Science》上。

-氮偶联反应的战略价值使其成为化学工业许多领域中的重要转变。其中,布赫瓦尔德-哈特维希(B-H)交叉偶联反应是最重要的 C-N 键形成反应之一,并彻底改变了现代合成有机化学的实践。在这一过程中,钯配合物会催化(杂)芳基亲电体与各种氮亲核物的交叉偶联。实验人员经常为新的 B-H 偶联反应确定特定的底物条件。在这种转化过程中,亲电体和亲核体的范围很广,因此需要开发许多催化剂和条件,以使不同的反应物能够成功偶联。选择合适的钯配体尤为重要,因为 B-H 偶联反应对配体结构的变化异常敏感。

现有的经验指南包括从文献中选取的实例,以及根据已报道的偶联反应得出的启发式结论,可帮助实验人员为给定的偶联反应选择合适的配体和条件(图1)。由于这些建议来自文献数据,因此仅限于以往的经验。即使有这些已发表的报告,化学文献也无法描述可能的 B-H 反应物配对的巨大范围;因此,当使用新的(杂)芳基卤化物时,实验人员必须依靠直觉。

1:此工作的目标

在学术界和工业界的常规合成活动中,B-H偶联剂的使用往往会造成瓶颈。实验人员首先要解决一个特定的化学问题:一对新反应物的偶联(图 1)。然后,他们根据已有知识,综合上述 B-H 用户指南和 B-H 名单中的建议,以及个人经验、直觉和具体文献先例,确定条件子集。

本文的目标是创建一个以机器学习(ML)为指导的工具,该工具可立即为新提出的偶联物提供预测命中率,提供比经验指导更多的指导,并避免经验方法带来的实验活动,从而加快 B-H 偶联物的常规应用(图 1)。这一目标与优化是相辅相成的,可以预见,两者的结合有可能创造出图 1 所示的端到端人工智能驱动流程。

从人工智能的角度来看,优化工具与本文提出的工具之间存在着重要的区别。图 2 显示了反应优化与基于基底适应模型的工具之间的直观对比。三维图表示一个假设的反应空间,其中任何特定的反应物和条件组合都会产生未知的产率,而使用 ML 的目的是利用相对较少的测量产率来预测其余的产率。从所有可能的耦合中选择一个特定的耦合,优化器就会指导在该反应空间切片内选择实验,以提高产率。

2. 定义基板自适应模型并将其与 ML 辅助优化模型进行对比

研究策略

2 B-H 偶联反应空间的反应物维度实际上包括多个子维度,条件维度还包括溶剂、碱和催化剂。所有这些维度都是独立的,并且都会影响产率。重要的是,每种反应物对催化剂、溶剂和碱都有不同的偏好。因此,模型必须了解每种反应物的偏好以及它们的各种组合之间的相互作用项,然后正确权衡这些因素才能发挥作用。用于训练此类模型的数据必须探索这些复杂的关系,而目前还不存在此类具有适当复杂性的数据集。

要建立这样一个数据集,反应物的维度必须不受限制,这样才有可能继续扩展到新的反应物领域,而无需重新开始。本文提出了一种以分离反应物域为基础的数据集设计新策略。通过结合专家知识、新的化学描述符和成熟的聚类技术,可以确定多维 B-H 偶联反应空间的代表性邻域(子空间)。然后,在随后的实验活动中,可以迭代生成新子空间中的新数据,并在使用新数据更新模型时扩大模型的适用范围。

3 显示了本研究中使用的 50 种氮亲核物中 19 种的代表性清单。以类似的方式选择了 50 种(杂)芳基溴,以广泛代表制药开发中感兴趣的许多构建模块以及一系列电子和立体特性。

3.本工作中使用的B-H偶联反应的氮亲核试剂的代表性范围,以及与其他经过验证的ML研究的B-H偶联的比较

首批实验设计了 23 种不同算法选择的反应物对,并为每种反应物设计了一套系统的条件。广泛的实验开发确定了在 24 管平行反应器中 0.5 毫摩尔规模的可重复条件。在 180 种可能的条件中,为每对反应物评估了 24 种条件。数据显示,63% 的实验结果为 0%82% 的实验结果低于 20%

4. 用于探索反应空间的新的、实验驱动的、主动学习的工作流程

为了建立所需的数据集,实验人员通过选择下一对反应物来指导模型的学习。这一过程依赖于定义的反应子空间,以作为领域扩展的目标。图 5A 描述了用于选择下一对反应物的反应子空间图。B-H 反应物空间图是一个阵列,胺按簇组织在纵轴上,溴化物以同样的方式组织在横轴上。每个小正方形代表特定溴化物和特定胺之间的耦合;因此,每个矩形子域代表一组胺簇和一组溴化物簇之间的耦合。

5. B-H 反应空间反应物组分的可视化

数据集可以被描述为一个网络,这项工作的目标是探索足够多的连接,从而推断可能存在的缺失连接。为了直观地说明这一点,图 5B 中描绘了一个结构弦图,两侧显示了胺和溴节点以及连接数据集中耦合反应物的边。与图 5A 中的地图类似,两侧的反应物按群组排列,图中的边束说明数据分布在每个群组的示例中。

实验验证

为了评估这些模型的性能,该工具在一个典型的使用案例中进行了测试:作者选择了一些新的偶联物,在这些偶联物中,有一种或两种反应物没有被模型发现,作者使用实验上可行的条件对这些偶联物进行了测试,并得出了最高的预测产率。图 6 显示了实验验证的结果。综合来看,模型的性能存在梯度。对于来自数据集中具有良好代表性的反应子空间的新反应物,预测结果是稳健的。对于反应物与数据集中的反应物结构不同的情况,模型能正确地学习反应趋势并预测命中率。对于可能与数据集中的反应模式不同的新型结构,模型的性能从中等到较差不等。这种利用主动学习进行网络探索的方法,使我们只需评估 0.7% 的反应空间,就能创建出在广泛适用领域中有用的模型。

6. 基质自适应模型作为条件推荐器的实验验证

小结与展望

本文描述的数据集包括大于120对反应物,系统地探索了B-H偶联空间的一个缩影。在这些数据上训练的模型同时学习了许多不同类别反应物的非线性反应趋势。通过样本外底物验证,这些模型可以预测反应的产率,平均绝对误差为 9%。实现这一目标的关键在于一种以信息学为指导的策略,它将探索 450000 个成员反应空间的实验不可能性降低到了获取仅由3300个实验组成的数据集的实验可控性问题。作者绍了这一经过验证的 Pd 催化 C-N 偶联工具以及主动学习工作流程,与之前的工作不同的是,作者利用这一工具为化学界建立了一个庞大的数据集。作者提供这个数据集,用于重点开发化学领域罕见的非混杂、多样化数据集建模。

转自:“高分子科学前沿”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com