[图]科学家使用机器学习方法来破解晶体结构的氧化态难题
同时周期表上还会表明它们的原子序数,这表明该元素的原子核中有多少质子。质子数是非常重要的,因为它还决定了有多少电子围绕原子核运行,这基本上使元素成为它是什么,并使它具有化学性质。简而言之,原子序数是一个元素的身份证。
近日发表在《Nature Chemistry》的论文中,来自 EPFL 基础科学学院的化学工程师在对元素周期表进行深入研究之后,发现了每个元素必须要报告的另一组关键数字:元素的氧化态,也称之为氧化数。简单地说,氧化态描述了一个原子必须获得或失去多少个电子,才能与另一个原子形成化学键。
领导这项研究的 Berend Smit 教授说:“在化学中,氧化态总是在一个化合物的化学名称中报告。氧化态在化学基础中发挥着如此重要的作用,以至于有些人认为它们应该被代表为周期表的第三维。一个很好的例子是铬:在氧化态 III 中,它是人体所必需的;在氧化态 IV 中,它是极其有毒的”。
如果弄清某个元素的氧化态是非常直接的,但涉及到由多种元素组成的化合物时,事情就变得复杂了。Smit 教授说:“对于复杂的材料,实际上不可能从第一原理来预测氧化态。事实上,大多数量子程序需要金属的氧化状态作为输入”。
目前预测氧化态的最先进技术仍然是基于 20 世纪初开发的一种叫做“键价理论”(bond valence theory)的东西,它根据组成元素的原子之间的距离来估计一种化合物的氧化态。但是这并不总是有效,特别是在具有晶体结构的材料中。Smit 表示:“众所周知,重要的不仅是距离,还有金属复合物的几何形状。但考虑到这一点的尝试还不是很成功”。
在这项研究中,研究人员能够训练一种机器学习算法,按照氧化状态对一组著名的材料--金属有机框架进行分类。研究小组使用了剑桥结构数据库(一个晶体结构库),在材料的名称中给出了氧化态。Smit 说:“该数据库非常混乱,有许多错误,而且实验、专家猜测和键价理论的不同变化被用来分配氧化态。我们假设化学是自我纠正的,因此,虽然在个人账户上有很多错误,但作为一个整体,社区会把它弄对”。
EPFL 的 Smit 小组的一名博士生 Kevin Jablonka 表示:“我们基本上做了一个机器学习模型,它抓住了化学界的集体知识。我们的机器学习不外乎是电视游戏‘谁想成为百万富翁’?如果一个化学家不知道氧化态,其中一条生命线就是问化学的观众他们认为氧化态应该是什么。通过上传晶体结构和我们的机器学习模型,是化学家的观众会告诉他们最可能的氧化状态是什么”。