Science封面 | 人类基因组工作草图发布20周年,待解的9大问题
新智元推荐
新智元推荐
来源:ScienceAI
作者:余小飞
1990年正式启动的人类基因组计划(Human Genome Project, HGP)与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。
作为一项规模宏大,跨国跨学科的科学探索工程,HGP的宗旨是测定组成人类染色体中所包含的30亿个碱基对组成的核苷酸序列,绘制人类基因组图谱,辨识其载有的基因及其序列,从而达到破译人类遗传信息的目的。
2001年,人类基因组工作草图的发布被认为是HGP成功的里程碑事件。2021年,距离人类基因组工作草案发表已过去20年。
在这20年中,越来越多的国家和团队加入到此项计划中。生物技术公司的参与也逐渐降低了测序的成本,提升了测序的速度和吞吐量。序列数据量的不断增长,也推动了用于组装和注释数据的数学和计算工具的发展。
2月5日,美国《科学》(Science)杂志以人类基因组工作草图发布20周年为专题发表了系列文章。在庆祝人类基因组工作草图发布20周年的同时,《科学》也提出了HGP面临的一系列问题,并以Complicated legacies: The human genome at 20为题发布了文章。
(来源:Science)
以下为编译内容:
数据共享精神,比以往任何时候都更重要
1996年2月,HGP领导者聚集在百慕大,共同商讨出「百慕大原则」,即同意将超过一定规模的基因组测序数据在产生后的24小时内提交到公共数据库。公开数据的「百慕大原则」是在HGP期间产生的第一个人类参考DNA序列的基本遗产。自1990年代以来,这些原则已成为开放科学的试金石。
虽然有很多参与者共享了他们的数据,但依旧有很多人只将数据共享给了一小群用户,甚至在相关论文发表后仍保留数据。「百慕大原则」的独特之处在于,希望将所有HGP资助项目的基因序列能在一天之内发布给任何在线用户。然而,实施这一政策并非易事。
需要倡导「百慕大原则」。在24小时内发布数据仍是目标,而不是严格的要求。「百慕大原则」的灵活性允许较小的中心参与计划,同时也允许该项目适应当时德国、法国、日本和美国不兼容的政策。此后,「百慕大原则」已适应不同的社区,并为其他许多原则提供了灵感。
共享数据可以挽救生命。例如,快速的数据共享在当前的新冠疫情危机中至关重要。严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)基因组序列被快速确定,并在2020年1月10日被公布,这是疫苗开发和诊断测试的开始。
(来源:Science)
多样性的缺乏阻碍了基因组学的前景
如果我们仍然主要关注欧洲血统的基因组,将会对人类基因组学的长期全球发展造成损害,并且也会阻碍人类对自身历史和生物学的理解。
虽然所有人在非洲拥有一个共同的新近起源,两个个体之间的遗传差异也很小,但这可以转化为约300万个个体基因组的变异点,而这些人类遗传变异体(HGV)并不是随机分布的。
我们早已知道,不能完全基于地理位置的基因组分布去「寻根」,但目前的基因组学研究仍然主要集中在欧洲地区的基因组上。据推测,这是因为欧洲血统个体高大、特征鲜明,数据可用性较高。
但现在,个体基因的多样性和代表性的认知已从专门研究的范围提升到了对基因组学的广泛了解。在不加剧健康不平等的情况下,为了在全球范围内部署以基因组学驱动的技术以及临床和公共卫生方法,我们必须研究不同祖先和地理背景的个人。
当然,大家也开始意识到日益多样化的人群对基因组学的影响,TOPMed计划、国际常见病联盟、非洲人类遗传与健康(H3Africa)、百万退伍军人计划,GenomeAsia等计划,以及我们所有人为研究基因多样性和包容性的发展做出了贡献。
(来源:Pexels)
释放算法生物学的潜能
2000年,加州大学圣克鲁斯分校的研究生Jim Kent创造了第一个基因组组装软件。GigAssembler将全球实验室产生的数百万个DNA序列片段拼凑在一起,将人类基因组「呈现」出来。
几乎同时,Celera Genomics收购了算法软件公司Paracel。Paracel拥有专门设计的文本匹配硬件和软件(TRW快速数据查找器),可在广阔的基因组空间中寻找基因。
想要解开混乱的基因组字母,需要在很大的基因组空间里快速而准确地搜索到指定序列,这就需要新形式的培训和学科专业知识。物理学家、数学家和计算机科学家将诸如线性编程、哈希和隐马尔可夫模型等方法带入了生物学。
自2005年以来,类似于摩尔定律的下一代测序技术的发展产生了越来越多的数据,并且需要更快的索引和搜索算法。生物学业界人士借用了「大数据」方法,这也推动了计算机科学研究的前沿发展。
围绕算法的生物信息学和计算生物学的结合也催生了生物医学的新机构形式和新市场。以统计为动力的「数据驱动生物学」已经配置了一种新兴的医学——工业综合体,有望实现个性化和“精确”形式的诊断和治疗。
将个体的基因型与参考数据进行比较的算法流水线会产生一系列有关未来健康和风险的预测。同时,人们一直担心基因组数据信息的收集会暴露太多我们的个人信息,让我们面临新的歧视。
(来源:Pexels)
精准医学的价值和负担能力
精准医学用遗传信息来对人体疾病进行预防干预。通常我们关心的是能否负担得起这项技术的费用,但很少关注它的价值。其价值可以通过为干预措施每花费1美元所获得的健康结果来衡量。
理想情况下,精准医学干预既可以节省成本,又可以改善结果。但大多数医疗保健干预措施都是以更高的成本来产生更好的结果,精准医学也是如此。
如何解决精准医学的价值和可负担性之间的矛盾,需要进一步讨论和推进。
找到精准医学产生的价值和可负担性之间的关系,需要有关总成本和成果以及潜在成本抵消的数据,但这些数据很难捕获。因为成本通常是预先发生的,随着时间的推移逐渐产生有益的成果。
新兴的精准医学检测可用于筛查大量人群,包括对所有新生儿进行基因组测序、液体活检以筛查常规初级保健就诊的癌症和成人阿尔茨海默病的预测性检测。这些干预措施可能会带来巨大的好处,但可能需要大量的前期支出。
虽然现在已经开发出各种方法来整合可负担性和价值,但是成本效益分析通常不检查预算影响,这可能导致不完整或矛盾的结论。对可负担性和价值的越来越多的考虑,不是方法论进步的结果,而是更多地关注如何确保可持续和有效的医疗保健。
这样做的积极结果是,在现有数据的基础上更好的定义和量化负担能力和价值的研究。大多数技术只有价格合理且具有高价值,才能发挥其潜力。
(来源:RENE BEGAY)
应结束种族与遗传学的纠缠
人类基因组工作草图的首次出版后,研究人员证实了许多学者们几十年来的认识:种族比赛是一种社会结构,而不是写在我们的基因里。
然而,人类基因组图谱的出现并没有让这种比赛停止,而是引起了人们对基于种族遗传差异的新兴趣。
在白人至上主义者网站上发布的最新遗传研究成果,导致美国人类遗传学会在2018年发表了另一条声明,谴责基于遗传学的种族纯度主张「在科学上毫无意义」。这些历史都没有限制对种族之间遗传差异的搜索以及对各种种族差异的遗传解释,这反过来又引起公众对种族和遗传的持续困惑。
现在是时候结束种族与遗传的纠缠了,努力对人类的统一与多样性有全新的认识。一般有两种方法可以帮助指导创新的研究问题和方法,这些问题和方法不再像人类生物学那样依赖种族分类。
第一,遗传研究人员应停止使用种族作为可解释健康、疾病或对治疗反应差异的生物学变量。将种族视为生物危险因素,掩盖了结构种族主义如何产生生物影响并在种族化的人群中造成健康差异的。
研究人员必须谨慎行事,以免使有害的表观遗传过程看起来像是永久的和不可避免的,应将注意力从最初引起问题的结构不平等问题上转移开来。
第二,研究人员应停止使用人类基因的白色欧洲标准,而应研究更广泛的人类遗传变异。例如,一直研究非洲大陆各族群的DNA扩展遗传数据库的项目表明,这些种群是地球上遗传多样性最丰富的种群,并且驳斥了存在遗传上可区分的黑人种族的谬论。
多样化生物医学研究的目的不应只是发现种族群体之间的先天遗传差异,而是应该使来自不同种族群体的人们有平等机会参与高质量的研究、伦理研究(包括临床试验)并分享收益,并为科学家提供丰富的资源以更好地了解人类生物学。
通过这种方式,基因研究可以促进更多的个性化诊断和治疗,而不再依赖于基于患者种族的粗略医学决定。
(来源:Pexels)
后疫情时代的遗传隐私问题
2007年,只有Craig Venter和Jim Watson两个人的全基因组测序完毕。如今,超过3000万个人可以访问其详细的基因组数据集。基因组数据的民主化有助于家庭团聚,反对种族主义,促进遗传素质,但也使得被监控的范围更大。
远亲之间DNA变异的相关性可以让相对较小的数据库能识别大部分人口,即使这个人的数据不在数据库中。随着消费者基因组学和允许参与者上传基因组数据的第三方网站出现,收集和访问DNA数据变得越来越容易。
我们认为,新冠疫情的爆发会加速基因监测。人们可能会在到达边境的机场中接受监测。机构可以利用疫情控制基础设施来建立所有入境者的DNA数据库,这样的数据库通过家族联系放大遗传信息,可识别入境者本国很大一部分人口遗传信息。
随着第三方基因数据库规模的扩大,基本上每个具有适当技术技能的人都能够识别个人遗传信息。所以我们还需要建立有关基因监测技术的使用指南。公开的讨论对进一步制定政策,利用基因组革命的力量造福公众至关重要。
(来源:Pexels)
本土基因组学中的新兴伦理
尽管在过去的二十年中,基因组学研究取得了长足进步,但部分当地原住民恐怕并不这么认为。在很多已经收集了原住民的生物材料来研究疾病、医学特征和人口起源的研究中,许多研究并未使参与者或其社区受益,一些研究甚至造成了损害,例如加剧了歧视和有害的偏见或对文化信仰的挑战。
原住民可能无法从精准医学和药物基因组学等领域的研究中受益,并且健康差异可能仍未得到解决。目前原住民学者正在制定指导方针,以解决这些问题,希望研究能让当地原住民人民的权益更公平,对其社区更加有益。
对原住民的权利和利益更多关注并增强其参与程度和能力,有可能减少偏见并为所有人提供更多相关和有益的研究。
(来源:Pexels)
多元化世界中的多基因风险
多基因风险评分(PRS)是一种将一个人的基因组中多个多态性的微小影响汇总到一个评分中的系统,可以通过获得等位基因全范围关联数据的任何表型来计算PRS。
在医学和公共卫生中,PRS可用于选择治疗方法、启动额外的风险筛查或促进行为改变。迄今为止,PRS已被证明在血压、肥胖、糖尿病、抑郁症、精神分裂症和冠心病等疾病中具有一定作用。
PRS还可显示基因组学中种族与祖先的复杂交集关系,补充先前工作的空白。最近的分析表明,在26项以前的研究中,减贫战略显著恶化的人主要是欧洲血统,而没有足够的数据来评估其他地区群体的表现。
研究人员将此结果归因于在开发PRS的数据集中非欧洲人和少数民族代表性不足。相比较大多数基因组数据集中包含的人,少数民族群体的祖先往往来自欧洲以外的地方。
为了让PRS的不同预测能力更好,研究人员已经开发了一些专门针对非洲血统的人的PRS,而基因组科学家正在考虑是否对「每个族群都需要特定于祖先的PRS」。
如果不考虑社会不平等如何影响健康,以及种族如何不完美地替代了祖先,那么对遗传祖先对PRS的影响就很容易陷入对种族的不了解。社会需要多种学科的方法来为不同的群体开发和实施PRS。
否则,祖先特定的PRS可能会重新激起人们对种族作为遗传上不同的群体的误解,并鼓励人们错误地认为种族群体之间的性状分布主要是由遗传引起的。这种信念对于白人至上和种族主义医学实践至关重要。
科学中的不公正可能会因为不包括某些人群而发生,但不公正的包容也会导致不公正。
(来源:Pexels)
基因组监测的风险以及如何阻止
虽然在部分案件中,使用DNA谱分析有助于识别嫌疑人并释放无辜者。但在过去二十年来,全球范围内将人类遗传信息以国家DNA数据库的形式保存现象激增,这引发了重要的人权问题。
欧洲和美国的地标法院判决对DNA数据的收集和保留设置了一些限制,但这些决定远非我们需要的全面法规。
隐私权是基本人权。在世界范围内,DNA的不受监管的收集、使用和保留已成为基因组监测的一种形式。
随着检测技术的价格越来越低,监测的采用变得越来越广泛,基因组监视的巨大风险也随之产生。各国政府应改革监督法并起草全面的隐私保护措施,以严格监管DNA和其他生物识别符的收集、使用和保留。
如果他们不符合合法性、相称性和必要性的国际人权标准,则应禁止此类活动。
(来源:Pexels)
原文链接:https://science.sciencemag.org/content/371/6529/564