OpenBioMed面向生物医学的 Python 深度学习工具包
OpenBioMed是一个生物医学的Python深度学习工具包。
OpenBioMed提供了多模态生物医学数据的处理接口,包括小分子、蛋白质和单细胞的分子结构、转录组学、知识图谱和生物医学文本数据。
OpenBioMed支持广泛的下游应用,包括AI药物发现任务和更具挑战性的多模态理解生成任务。
OpenBioMed为研究者提供了易用的接口,以支持:
- 针对小分子、蛋白质和单细胞的三种模态的数据,包括分子结构或转录组学数据、生物医学文本数据和知识图谱。 OpenBioMed为研究人员提供了一个统一的架构来访问、处理和融合多模态数据。
- 10个下游任务,包括以药物-靶点亲和力预测、分子性质预测为代表的AI药物研发 (AIDD) 任务,以及以分子描述生成、基于文本的分子生成位代表的多模态任务。
- 超过20个深度学习模型,包括BioMedGPT-10B,MolFM,CellLM等。 研究人员可以灵活地组合不同的组件来构建自己的模型。
- 超过20个AI与生物医药交叉领域的热门数据集。我们在这些数据集上针对大量模型进行了全面且可复现的评估。
OpenBioMed的核心特色如下:
- 统一的数据处理框架,能轻松加载不同生物医学实体、不同模态的数据,并将其转换为统一的格式。
- 现成的模型预测模块。我们公开了预训练的模型的参数,并提供了使用案例,能够简便的迁移到其他数据或任务中。
- 可复现的模型库,以帮助研究者现有和新的下游任务上快速复现或扩展最先进的模型。
下表显示了OpenBioMed中支持的下游任务与对应的数据集和模型,它们在未来会被进一步扩展。
下游任务 | 数据集 | 模型 |
---|---|---|
跨模态抽取 | PCdes | KV-PLM, SciBERT, MoMu, GraphMVP, MolFM |
分子描述生成 | ChEBI-20 | MolT5, MoMu, GraphMVP, MolFM, BioMedGPT |
基于文本的分子生成 | ChEBI-20 | MolT5, SciBERT, MoMu, MolFM |
分子问答 | ChEMBL-QA | MolT5, MolFM, BioMedGPT |
蛋白质问答 | UniProtQA | BioMedGPT |
细胞类型注释 | Zheng68k, Baron | scBERT, CellLM |
单细胞药物敏感性预测 | GDSC | DeepCDR, TGSA, CellLM |
分子性质预测 | MoleculeNet | MolCLR, GraphMVP, MolFM, DeepEIK, BioMedGPT |
药物-靶点亲和力预测 | Yamanishi08, BMKG-DTI, DAVIS, KIBA | DeepDTA, MGraphDTA, DeepEIK |
蛋白质关系预测 | SHS27k, SHS148k, STRING | PIPR, GNN-PPI, OntoProtein |
评论