谷歌研究院在化学发力：应用机器学习技术预测分子性质

谷歌研究院机器学习

2017/04/18 10:36

最近，机器学习在化学领域的应用有很大进展，特别是化学搜索问题，从药物筛选、电池设计到OLEDs设计，催化剂的发现。历史上化学家使用薛定谔方程做数值近似来解决化学检索问题，如使用密度泛函理论（DFT），然而近似值的计算成本限制了搜索的规模。

为了能够扩大搜索能力，雷锋网了解到已有几个研究小组使用DFT生成的训练数据，创建ML模型来预测化学性质，例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能，Jörg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经网络表征。在这些工作的基础之上，谷歌研究院在QM9基准数据集（配有DFT计算的电子，热力学和振动性质的分子集合）上应用了各种机器学习方法。

雷锋网消息，谷歌研究院发布了两篇论文，介绍了他们在这一领域的研究，研究工作由Google Brain团队，Google Accelerated Science团队，DeepMind和巴塞尔大学合作完成。第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》调查了回归分子和分子表征的选择对快速机器学习模型的影响，模型用于构建有机分子的十三个基态电子性质，每个回归/表征/性质组合的性能通过学习曲线评估，该曲线描绘近似误差，以此作为训练集大小的函数。论文在QM9基准数据集上测试了多种机器学习方法，并集中改进最有希望的深层神经网络模型。

第二篇论文《Neural Message Passing for Quantum Chemistry》描述了一种称为消息传递神经网络（MPNN）的模型族，将其抽象地定义为包含很多对图形对称性具有不变性的神经网络模型。研究团队在MPNN模型族中开发了新变体，性能明显优于QM9基准测试的所有基准测试方法，另外某些目标的性能改进了近四倍。

从机器学习的角度来看，分子数据之所以有趣，原因之一是一个分子的自然表征以原子作为边界的结点和键。能够利用数据中固有对称性的模型更容易泛化，这很容易理解，卷积神经网络在图像识别上之所以成功，一部分原因是模型能够记住图像数据中的一些不变性知识，比如把一种图片中的狗挪到图片左边还是一张狗的照片）。图形对称性这一固有特征是机器学习处理图像数据非常理想的性质，在这领域也有许多有趣的研究，例如Yujia Li等研究了结构化图片的特征学习技巧，David Duvenaud等应用图像神经网络学习分子指纹信息，Steven Kearnes等提出一种机器学习模型用于无向图的学习。尽管这一领域已有所进展，谷歌研究院希望找到化学（和其他）应用模型的最佳版本，并找出文献中提到的不同模型之间的联系。

谷歌研究院提出的MPNN模型提高了QM9数据集任务（预测所有13种化学性质）的最好性能，在这个特定的数据集上，他们的模型可以准确地预测13种性质中的11个，这样的预测性能已经足够准确，能对化学家未来的应用有帮助。另外，此模型比使用DFT模拟要快30万倍。但是在MPNN模型走向实际应用之前还有很多工作要做。实际上，MPNN模型必须应用于比QM9数据更多样化的分子集合（例如数目更大，变化更大的重原子集合）。当然，即使有了更真实的数据集，模型的泛化性能还是很差。克服以上两个挑战需要解决机器学习研究的核心问题，例如泛化。

预测分子性质是一个非常重要的问题，它既是先进的机器学习技术的应用场景，也为机器学习带来了非常有趣的基础研究课题。最后，分子性质的预测有助于造福人类的新药物和材料的设计。谷歌科学家们认为传播研究成果，帮助其他研究者学习机器学习应用都是及其重要的。

封面图片来自Chemistry Explained，雷锋网编译