2. 明医 (MING)——中文医疗问诊大模型

    项目简介

    这是MediaCPT-zh的最新替代版(2023年7月25日)。 该问诊大模型提供了两种功能:

    • 医疗问答:对医疗问题进行解答,对案例进行分析。
    • 智能问诊:多轮问诊后给出诊断结果和建议。

    论文及源码

    项目仅给出了部分代码库,如下:

    https://github.com/MediaBrain-SJTU/MING

    并没有论文或者技术报告支撑。

    数据集构建

    数据集主要由四个部分构成:

    数据类型 数据构成 数量 占比(%)
    医疗知识问答 基于临床指南和医疗共识的知识问答 168k 48.88
    基于医师资格考试题的知识问答 77k
    真实医患问答 140k
    基于结构化医疗图谱的知识问答 160k
    多轮情景诊断与案例分析 基于HealthCareMagic构造的多轮情景问答与诊断 200k 21.52
    基于USMLE案例分析题的格式化多轮问诊 20k
    多轮病人信息推理与诊断 20k
    任务指令 医疗指令 150k 26.91
    通用指令 150k
    安全性数据 敏感性问题 15k 2.69
    医疗反事实 15k
    总计 - 1.12M 100.00

    git库中并没有相关的数据源说明。

    与MedicalGPT相比,MING的说明中并没有详细的微调训练样本的说明, 给出的代码是采用FastChat平台进行的。

    模型训练

    该模型采用的是基于bloomz-7B的指令微调,最后生成MING-7B。

    模型 基座 HuggingFace
    MING-7B bloomz-7b1-mt MING-7B

    并没有给出训练的具体方法。

    问答整体实施采用了FastChat微调模型平台框架。

    开放程度

    仅开放有对话运行示例,项目说明较简单,似乎很仓促替代的MedicalGPT-zh,仅提供了可测试的模型及infer推理测试脚本。