通过图卷积神经网络技术，科学家发现165个新的致癌基因-技术圈

大数据文摘授权转载自学术头条

作者：刘芳编审：王新凯、寇建超

作为对人类健康造成最重大威胁的疾病之一，癌症一直是各国科学家们重点研究的对象。据世界卫生组织国际癌症研究署（IAR）发布的全球最新癌症预估数据显示，2020 年全球新发癌症病例 1929 万例，死亡病例 996 万例。其中，中国新发癌症 457 万人，占全球 23.7%，癌症新发人数远超世界其他国家。

因此，寻找癌症预防和治疗的有效手段，已成为前沿科技的主要方向。

近日，德国柏林马克斯・普朗克分子遗传学研究所（MPIMG）联合慕尼黑亥姆霍兹联合研究中心计算机生物学研究所（ICB），开发了一款名为 “EMOGI” 的机器学习算法 ——“可解释的多基因组图像集成”（Explainable Multi-Omics Graph Integration）。

EMOGI 算法利用病人样本数据和图卷积神经网络（GCN）技术，可以在细胞突变之前对致癌基因进行识别。最终，科学家们利用该算法成功识别出了 165 个新的致癌基因，这将为开发个性化靶向抗癌药，揪出癌症背后的 “真凶” 带来重要契机。

相关研究以 “Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms” 为题，于 4 月 12 日发表在科学期刊《自然-机器智能》（Nature Machine Intelligence）上。

（来源：Nature Machine Intelligence）

癌症之谜：基因组分析

在癌症发生过程中，肿瘤细胞会失去控制。它们不断疯狂增殖并进入组织，破坏器官，从而损害基本的生命功能。目前人们对癌症的病因尚未完全了解。但从分子生物学的角度来说，癌变意味着由一连串 DNA 受损而引发的细胞分裂速率失控。当调控细胞生长的基因发生突变或损坏时，细胞便开始了持续的、不受控制的生长及分裂。因此，对癌症进行基因组分析便成为了解开癌症之谜、找到治疗方法的关键。

在最新的研究中，科学家们用机器学习算法分析了上万个从病人样本中生成的数据集。这些数据集包含了体细胞变异及胚系变异、基因拷贝数变异、DNA 甲基化、基因表达和蛋白质交互作用（PPI）等信息。细胞培养实验表明，最新发现的 165 个致癌基因与已知的癌症基因相互作用，且对肿瘤细胞的生存来说必不可少。

对此，MPIMG 研究小组负责人 Annalisa Marsico 表示：“只有知道致病原因，我们才能对其进行有效纠正。这就是为什么发现尽可能多的致癌机制是如此重要。在理想情况下，我们终有一天可以获得癌症基因组的全貌。对不同患者来说，癌症基因组对病情的进展有着不同的影响，这也是个性化癌症治疗方案的基础。”

追踪隐秘致癌基因

与化疗等传统治疗方法不同，个性化治疗方案强调根据肿瘤类型量身定做精准药物。近年来，通过基因组数据分析来精确预测每个肿瘤的复杂性、进而开发出适合临床环境的个性化治疗手段已经成为最新研究趋势。

Annalisa Marsico 解释说：“我们的目标是能够为每个患者都选择最好的治疗方法，也就是副作用最少、最有效的治疗方法。此外，我们将可以根据癌症的分子特征来识别已经处于早期阶段的癌症。”

虽然个性化靶向药为患者们带来了希望，但以往的研究存在着一定缺陷。2016 年，Ian F. Tannock 和 John A. Hickman 曾在《新英格兰医学杂志》（NEJM）撰文指出，即使在单个肿瘤中，癌细胞的基因组成在不同区域之间也存在显著差异，这就是困扰科学家们的肿瘤异质性。

肿瘤异质性是指肿瘤在生长过程中，经过多次分裂增殖，其子细胞呈现出分子生物学或基因方面的改变，从而使肿瘤的生长速度、侵袭能力、对药物的敏感性以及预后等各方面产生差异。即使是同一位癌症患者，肿瘤细胞也会根据处于身体的不同位置而发生变化（肿瘤间异质性），甚至同一肿瘤内的肿瘤细胞也有细微甚至显著不同（肿瘤内异质性）。

癌症治疗的一个主要挑战，就是并非肿瘤内的所有细胞都对大多数治疗方法具有同等的敏感性或者有效的靶向性。而未被消除的癌细胞往往成为癌症复发的关键驱动因素。可以说在很大程度上，就是肿瘤异质性在 “从中作祟”。

（来源：NEJM）

对于上述研究，此次研究的论文作者之一 Roman Schulte-Sasse 表示认同：“到目前为止，大多数研究都集中在基因序列的致病性变化，即细胞蓝图（blueprint of the cell）上。但是，近些年的研究已经证明，表观遗传干扰或基因活性失调也可能导致癌症。” 这就是为什么在此次研究中，科学家们将反映蓝图中故障的基因序列数据与代表细胞内事件的信息合并在一起。

Schulte-Sasse 说：“我们发现了一些在肿瘤中序列几乎没有变化但又不可或缺的基因，因为它们为肿瘤调节能量供应。这些基因通过其他方式（化学）失控，例如 DNA 甲基化。这些（化学）变化使基因序列信息保持不变，却控制了基因的活动。因此，这类基因很有希望成为靶向药的新靶点。由于它们在后台运作，我们只能通过复杂的算法才能找到它们。”

说到这里，就不得不提到机器学习领域中大名鼎鼎的图卷积神经网络技术。这个概念首次提出于 ICLR2017（成文于 2016 年），作为被设计用来针对图结构的神经网络，它能够利用图的信息，从之前的网络层中聚合信息的，同时在图中这种机制能够对节点产生有用的特征表示。

正是因为采用了这种全新的技术和思维模式，科学家们才能在基因序列没有改变的情况下发现这 165 个基因与已知致癌基因的联系和其在蛋白质交互作用中的功能。而这使得有致癌基因名录上增加了 165 个新条目，至此，人类所认知的致癌基因已经达到了 700-1000 个。

只有通过生物信息学分析和最新的 AI 算法相结合，研究人员才能追踪到隐藏的基因。Schulte-Sasse 说：“蛋白质交互作用可以被绘制成一个数学网络，也就是图形。你可以把它想象成一个铁路网，每个车站都对应着一个蛋白质或基因，它们之间的每一个相互作用都可以用列车连接。”

在图卷积神经网络技术的帮助下，研究人员甚至能够发现那些以前没有被注意到的列车链接。这次的研究共分析了 16 种不同肿瘤类型，上万个不同数据网络图，而每个图内包含了 12000-19000 个数据点。

此外，Annalisa Marsico 也强调，EMOGI 算法并不局限于预测癌症，数据中显然隐藏着更多有趣的细节。从理论上讲，它可以用来整合不同的生物数据集，并找到规律和模式。“将我们的算法应用于类似的有大量数据且和基因关系密切的复杂疾病可能会很有用。例如，糖尿病等复杂的代谢性疾病等。”

参考资料：

https://www.nature.com/articles/s42256-021-00325-y

https://en.wikipedia.org/wiki/Protein% E2%80%93protein_interaction

https://www.molgen.mpg.de/4385539/news_publication_16712193_transferred?c=228720

https://www.nejm.org/doi/full/10.1056/NEJMsb1607705

点「在看」的人都变好看了哦！