AI可准确预测反应产率有望用于新药研发
手工自动化(AI)是近几余年的火爆一话题。在生物制药领域,对AI能不能效果方案仿制药的争辩也从未有过停下。近来,投稿在著名学术性论文期刊《科学调查》上的几项调查,则令我门看得见了多方面的第一面:出自普林斯顿大学生(Princeton University)和默沙东调查检测室(Merck Research Laboratories)的生物学上的家们开放半个款手工自动化,能够 脱贫攻坚地估计生物学上的不起作用的成品率,这还有机会在仿制药开放上取到大量的采用。
从本质上看,新药的合成与制造是化学反应。化学家们为了得到想要的分子,必须以合适的比例加入正确的原料,并提供恰当的反应条件。这听起来虽然很简单,但让机器来预测和设计高产率的化学反应却并不容易。一个典型的化学反应需要有大量不同的化学分子参与。而每一个额外分子的加入,都会为计算添加一个维度。即便对于近年表现出彩的人工智能,化学家们也不是很确定它是否能胜任这项工作。
为了让机器学会设计高产率的化学反应,我们需要帮助它建立一个多维度的模型。但从历史上看,这一直是个瓶颈。其背后的原因在于这个模型过于复杂,而我们能用来训练这个模型的数据却远远不够。幸好,随着默沙东在机器人系统上的大量投入,现在我们能在短短几天内,完成数千个化学反应。这产生了大量可以用来训练AI的数据。
▲默沙东研究实验室的Spencer Dreher博士(图片来源:默沙东官方网站)
“我非常高兴地看到,我们产生的数据质量很高,能用于建立有效的模型。”默沙东研究实验室的Spencer Dreher博士说道。
在获得了这些数据,并利用程序对每一个输入进模型的化学品进行定量标注后,研究人员们考量了多种统计学模型的准确率。有趣的是,行业中常用的线性回归模型在这一任务的执行上表现并不好,而表现最好的是一类叫做“随机森林”(random forest)的模型。此类模型能从训练数据库中随机提取出小量的样本,构建决定树(decision tree),而每一棵决定树都能对特定的化学反应产率进行预测。这些预测会被综合评估,产生一个总体的预测产率。结果表明,这款模型能很好地对训练数据之外的化学反应进行产率的预测。
▲“随机森林”模型表现最佳(图片来源:《科学》)
▲该模型可以准确预测产率(图片来源:《科学》)
“只要几百个反应数据,我们就能准确地用模型预测产率。化学家们甚至都不需要机器人的帮助,自己就能完成这些反应。”这项研究的第一作者Derek Ahneman博士说道。
▲普林斯顿大学的Abigail Doyle教授(图片来源:普林斯顿大学)
“我们开发的这款软件能适用于任何反应或任何底物类型,”该研究的通讯作者之一,普林斯顿大学的Abigail Doyle教授说道:“我们希望人们能将这一工具应用于其他反应之中。”
参考使用材质:
[1] Chemists harness artificial intelligence to predict the future of chemical reactions
[2] Predicting reaction performance in C–N cross-coupling using machine learning

分享到: