华佗GPT开源中文医疗大模型-技术圈

华佗GPT开源中文医疗大模型

联合创作 · 2023-09-25 23:42

HuatuoGPT（华佗GPT）是开源中文医疗大模型，基于医生回复和 ChatGPT 回复，让语言模型成为医生，提供丰富且准确的问诊。

HuatuoGPT 致力于通过融合 ChatGPT 生成的 “蒸馏数据” 和真实世界医生回复的数据，以使语言模型具备像医生一样的诊断能力和提供有用信息的能力，同时保持对用户流畅的交互和内容的丰富性，对话更加丝滑。

HuatuoGPT 使用了四种不同的数据集，分别如下：

蒸馏 ChatGPT 指令数据集（Distilled Instructions from ChatGPT）：这个数据集受到 Alpaca 模型创建指令集的方法启发，从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是，本方法还加入了科室和角色信息，根据采样的科室或角色生成符合条件的指令数据集。

真实医生指令数据集（Real-world Instructions from Doctors）：这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化，因此本方法通过润色以提高其可读性。

蒸馏 ChatGPT 对话数据集（Distilled Conversations from ChatGPT）：这个数据集通过为两个 ChatGPT 模型提供共享的对话背景，让它们分别模仿医生和患者进行对话。

真实医生对话数据集（Real-world Conversations with Doctors）：这个数据集来源于真实医生的对话，但对医生的回复使用模型进行了润色。

这些数据集共同为模型提供了一个统一的语言模式、医生的诊断能力以及指令跟随能力。