预测更准确，使用机器学习改进化学品的毒性评估-技术圈

来源：ScienceAI

本文约1500字，建议阅读5分钟

本文为你介绍一个基于随机森林的直接分类模型，该模型将分子描述符与毒性联系起来。

从命运和毒性的角度来看，人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数，人们对其环境归宿或毒性知之甚少。

通过实验填补这些数据空白是不可能的，因此计算机方法和预测至关重要。然而，许多现有模型受到假设和小训练集的限制。

近日，来自阿姆斯特丹大学、昆士兰大学和挪威水研究所的研究团队，开发了一个基于随机森林的直接分类模型，该模型将分子描述符与毒性联系起来。

该模型是通过实验定义的 907 种有机化学品的急性鱼类毒性 96 小时 LC50 值数据集开发、验证和测试的。该分类模型解释了数据中约 90% 的训练集方差和约 80% 的测试集方差。与基于定量构效关系 (QSAR) 建模的传统「计算机模拟」评估相比，该策略使错误分类的频率降低了 5 倍。与 QSAR 方法相比，提出的直接分类模型具有更好的性能，使该方法成为评估化学品危害和风险的可行工具。

该研究以「From Molecular Descriptors to Intrinsic Fish Toxicity of Chemicals: An Alternative Approach to Chemical Prioritization」为题，于 12 月 8 日发布在《Environmental Science & Technology》上。

论文链接：

https://doi.org/10.1021/acs.est.2c07353

据研究人员称，无论是在新化学品的安全设计开发中，还是在现有化学品的评估中，机器学习的使用都可以极大地改善分子的危险评估。后者的重要性体现在以下事实：欧洲和美国的化学机构列出了多年来开发的大约 800,000 种化学品，但对这些化学品的环境归宿或毒性知之甚少。

由于化学归宿和毒性的实验评估需要大量时间、精力和资源，因此建模方法已被用于预测危险指标。特别是经常应用 QSAR 建模，将分子特征（原子排列和 3D 结构）与物理化学性质和生物活性联系起来。

根据建模结果（或可用的测量数据），专家将分子分类为全球化学品统一分类和标签系统 (GHS) 中定义的类别。对于特定类别的分子，将进行更多的研究，更积极的监测，最终立法。

然而，这个过程有固有的缺点，其中大部分可以追溯到 QSAR 模型的局限性。它们通常基于非常同质的训练集，并假设线性构效关系以进行外推。因此，现有的 QSAR 模型无法很好地代表许多化学品，使用这些模型可能会导致大量的预测误差和化学品的错误分类。

跳过 QSAR 预测

在这里，Saer Samanipour 博士及其合著者提出了一种完全跳过 QSAR 预测步骤的替代评估策略。

图 1：从原始数据到最终生成模型的研究总体工作流程。（来源：论文）

研究人员合作开发了一种基于机器学习的策略，用于根据分子描述符对化学品的急性水生毒性进行直接分类。

该模型是通过 907 项实验获得的鱼类急性毒性数据（96h LC50 值）开发和测试的。新模型跳过了对每种化学品的毒性值 (96h LC50) 的明确预测，而是直接将每种化学品分类为多个预定义的毒性类别。

例如，这些类别可以由特定法规或标准化系统定义，如急性水生危害的 GHS 类别一文中所示。该模型解释了训练集中使用的数据中大约 90% 的方差，以及测试集数据中大约 80% 的方差。

更准确的预测

与基于 QSAR 回归模型的策略相比，这种直接分类策略导致错误分类减少了五倍。随后，研究人员扩展了他们的策略以预测大量 32,000 种化学品（NORMAN 数据集）的毒性类别。

图 2：NORMAN 数据集的适用性域 (AD) 评估，基于 (a) 训练集（即完整的分子描述符空间），(b) QSAR 回归模型，和 (c ) 直接分类模型。蓝色圆圈代表 AD 之外的化学物质，橙色圆圈代表模型适用范围内的化学物质，绿色圆圈代表训练集适用范围内的化学物质。（来源：论文）

他们证明，他们的直接分类方法可以产生更高准确度的预测，因为来自不同来源和不同化学家族的实验数据集可以分组以生成更大的训练集。它可以适应各种国际法规和分类或标签系统规定的不同预定义类别。

将来，直接分类方法还可以扩展到其他危害类别（例如慢性毒性）以及环境归宿（例如流动性或持久性），并显示出改进化学危害和风险评估的硅内工具的巨大潜力。

参考内容：

https://phys.org/news/2022-12-machine-toxicity-chemicals.html

编辑：于腾凯

校对：林亦霖