Nature methods | Alevin-fry, 一种高效准确的单细胞测序数据预处理工具

生信宝典

共 2271字,需浏览 5分钟

 ·

2022-03-25 15:12

随着单细胞以及单核测序(single-cell and single-nucleus RNA-sequencing)的快速发展以及逐渐普及,越来越多的单细胞测序数据集在近几年不断的出现。这些数据集不仅有着成倍增加的细胞数量,也包括了更多维度的生物特征信息,这使得预处理单细胞测序数据的所需的时间不断增加。例如,10x Genomics的官方预处理软件CellRanger有时需要几十个小时来处理一个单一数据集。虽然目前有些轻量化工具可较快的处理单细胞测序数据,比如kallisto|bustoolsalevin,但轻量化工具的假阳性和准确性问题一直有待解决。

596906e6423089f336e6b4ac2e4315f4.webp

在2022年三月的Nature Methods期刊中,美国马里兰大学的Rob Patro团队发表的了名为alevin-fry的单细胞测序数据预处理工具来一站式高效便捷的量化sc/snRNA-seq数据。通常情况下,alevin-fry可在15分钟内以小于8 GB的内存用量处理单细胞或单核测序数据集,并与任何其他工具所能达到的最佳准确率持平。该工具用当前热门的Rust编程语言书写,不仅在GitHub (https://github.com/COMBINE-lab/alevin-fry)上完全开源, 并且上传至crates.io (https://crates.io/crates/alevin-fry)及 bioconda (https://anaconda.org/bioconda/alevin-fry)以供下载安装,还有有十分完善的配套工具 (https://github.com/COMBINE-lab/usefulaf)用于构建参考序列以及导入量化分析结果。

除了比其他任何量化方法都更快、更节省内存之外,alevin-fry还改进了量化工具中普遍存在的内存可伸缩性问题和其他轻量化工具表现出的假阳性表达问题。除此之外,alevin-fry所产生的量化结果还可被直接用于多种下游分析,例如对单细胞速率(RNA velocity)的研究。

f0ba5fb04f80b710507b778c97a1142e.webp

在业界普遍认为的效率(速度及内存占用)或准确性二选一的难题中,论文展示了alevin-fry做到了不仅在效率上处于全业最优,而且达成了其他以全基因组为基础的量化工具用牺牲效率换来的高准确性。可以说alevin-fry不仅是现今最高效的单细胞预处理工具,也是现如今最准确的单细胞预处理工具之一。在结果中,该论文指出了alevin-fry不仅解决了在轻量化工具中普遍存在的假阳性问题,还在其他工具普遍需要额外的内存及时间来处理单核测序数据的情况下做到了可将单细胞及单核测序数据统一化高效处理。除此之外,该论文还示范了如何用alevin-fry来处理各种类型的数据集,例如单细胞测序,单核测序和RNA速率的示例数据集,并展示了alevin-fry的量化结果相比于其他任何的量化工具保留了最多的生物信号。

328f8ff4cfde9a7a182feca64276ff6c.webp

为方便用户使用,该团队为alevin-fry准备了完整的配套工具 https://hub.docker.com/r/combinelab/usefulaf。对于构建参考序列,R用户可参考roe (https://github.com/COMBINE-lab/roe),python用户可参考 pyroe (https://github.com/COMBINE-lab/pyroe)。对于导入量化结果,该团队也对 R用户 (https://mikelove.github.io/fishpond/reference/loadFry.html)和 python用户 (https://github.com/COMBINE-lab/usefulaf/blob/main/python/load_fry.py)分别提供了支持。除此之外,usefulaf (https://hub.docker.com/r/combinelab/usefulaf)还提供了bash scriptsDockersingularity镜像,让用户可以通过简单的几行命令预处理任何单细胞数据集。该团队还为用户提供了一种模拟CellRanger筛选细胞的方法,并被纳入DropletUtils (https://github.com/MarioniLab/DropletUtils/blob/master/R/emptyDropsCellRanger.R) R包中。并且,该团队还会不定期更新各种alevin-fry相关教程 (https://combine-lab.github.io/alevin-fry-tutorials/),截至发稿时,已有关于利用alevin-fry完成空间转录组分析,CITE-seq,sci-RNA-seq3及split-seq数据分析和RNA速率分析的相关教程。

450f3637c22ec9fd3dd41f732f4e918b.webp

Twitter 原文:https://twitter.com/nomad421/status/1503391195514482688

论文链接:https://www.nature.com/articles/s41592-022-01408-3

马里兰大学Rob Patro教授为本文通讯作者,博士生和东泽为本文第一作者。Rob 实验室还开发有Salmon, Sailfish, Mantis, Pufferfish 等工具。

往期精品(点击图片直达文字对应教程)

e794a41e6439f4ec1b4ddb14f0962592.webp

f515261f940cbd0631d8a1844393348c.webp

faa0676fc7b1dc0b97524644cb54a4b5.webp

3d7ffd47aa45520cd745b9218f373237.webp

85e16ef1898491af4d053060d2e6b510.webp

c5bbb9129dad23f9e69602ede0907791.webp

7a0267511e5db9f128d71bb5f70aee7c.webp

abd65fc91fcc9589cbe816e12e0a86d0.webp

e8a4568e50f1a636fa0d3cdd791da288.webp

31a31593ba8dfd322d6e9e3b2ce4cf8c.webp

ab7464c8ba4401270b98ddbb5fd7a1e7.webp

41bd29df41ea162d6a7c7a30983ffd87.webp

b732288283177c684c76dc37c1cda87d.webp

60cdc8371bbe3fb422b40dd5d0e23924.webp

ee040c1c402645d2fe6fdd863c63a579.webp

0635ab6d78883bb15ac00033f4a29779.webp

066478019f71037b781d01b99967d3c3.webp

e26785e857f9b055c3e7986cb6cd5421.webp

968aa144358778dbf09266da456810ea.webp

788a65edda3f6d496774c78dd8e4b64a.webp

73df992fc52c19fe3f1aae1c972ceee0.webp

29183e8b0d1624032a76b2b898019fce.webp

7c9c3cdfbf77d2c33a4b0f2f643ccda0.webp

5ac7fa3deefda50dd5f83953d95658be.webp

3b2d3b799c179efd3ec68b09278cbe68.webp

ad3d2811b43308a0177a0196dc0a6659.webp

acb777c18bc4754555cae0af1d4a778c.webp

db22fa52bea5236a463b15c02ef171f2.webp

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

26e0a9eadb135a62ed5a0f540d2fd838.webp


浏览 28
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报