OpenBioMed面向生物医学的 Python 深度学习工具包

联合创作 · 2023-09-26 07:04

OpenBioMed是一个生物医学的Python深度学习工具包。

OpenBioMed提供了多模态生物医学数据的处理接口,包括小分子、蛋白质和单细胞的分子结构、转录组学、知识图谱和生物医学文本数据。

OpenBioMed支持广泛的下游应用,包括AI药物发现任务和更具挑战性的多模态理解生成任务。

OpenBioMed为研究者提供了易用的接口,以支持:

  • 针对小分子、蛋白质和单细胞的三种模态的数据,包括分子结构或转录组学数据、生物医学文本数据和知识图谱。 OpenBioMed为研究人员提供了一个统一的架构来访问、处理和融合多模态数据。
  • 10个下游任务,包括以药物-靶点亲和力预测、分子性质预测为代表的AI药物研发 (AIDD) 任务,以及以分子描述生成、基于文本的分子生成位代表的多模态任务。
  • 超过20个深度学习模型,包括BioMedGPT-10B,MolFM,CellLM等。 研究人员可以灵活地组合不同的组件来构建自己的模型。
  • 超过20个AI与生物医药交叉领域的热门数据集。我们在这些数据集上针对大量模型进行了全面且可复现的评估。

OpenBioMed的核心特色如下:

  • 统一的数据处理框架,能轻松加载不同生物医学实体、不同模态的数据,并将其转换为统一的格式。
  • 现成的模型预测模块。我们公开了预训练的模型的参数,并提供了使用案例,能够简便的迁移到其他数据或任务中。
  • 可复现的模型库,以帮助研究者现有和新的下游任务上快速复现或扩展最先进的模型。

下表显示了OpenBioMed中支持的下游任务与对应的数据集和模型,它们在未来会被进一步扩展。

下游任务 数据集 模型
跨模态抽取 PCdes KV-PLM, SciBERT, MoMu, GraphMVP, MolFM
分子描述生成 ChEBI-20 MolT5, MoMu, GraphMVP, MolFM, BioMedGPT
基于文本的分子生成 ChEBI-20 MolT5, SciBERT, MoMu, MolFM
分子问答 ChEMBL-QA MolT5, MolFM, BioMedGPT
蛋白质问答 UniProtQA BioMedGPT
细胞类型注释 Zheng68k, Baron scBERT, CellLM
单细胞药物敏感性预测 GDSC DeepCDR, TGSA, CellLM
分子性质预测 MoleculeNet MolCLR, GraphMVP, MolFM, DeepEIK, BioMedGPT
药物-靶点亲和力预测 Yamanishi08, BMKG-DTI, DAVIS, KIBA DeepDTA, MGraphDTA, DeepEIK
蛋白质关系预测 SHS27k, SHS148k, STRING PIPR, GNN-PPI, OntoProtein
浏览 7
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报