3. DoctorGLM

    项目简介

    项目是基于ChatGLM-6B的中文问诊模型,发布于2023年6月份。

    论文及源码

    项目共公开了微调的源码,包括利用Lora及P-Tuning2的微调方法。

    https://github.com/xionghonglin/DoctorGLM

    论文地址为:

    https://arxiv.org/abs/2304.01097DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task

    相关的两个技术分享:

    https://zhuanlan.zhihu.com/p/619602165100块训练自己的私人家庭医生(LLM)

    https://zhuanlan.zhihu.com/p/622649076低成本训练医疗ChatGPT踩坑记

    数据来源

    采用了以下的数据分类

    Dataset Department Language Q&A Chat Number Syn. Size Weight
    CMD. Surgical CN × 116K × 52MB
    Obstetrics and Gynecology CN × 229K × 78MB
    Pediatrics CN × 117K × 47MB
    Internal Medicine CN × 307K × 102MB
    Andriatria CN × 113K × 44MB
    Merged CN × 1.9M × Doctor_GLM/ckpt
    MedDialog Multiple CN&EN 3.4M × 1.5GB ptuning_weight
    ChatDoctor Multiple EN × 5.4K 2.9MB Coming soon
    HearlthcareMagic Multiple EN × 200K × 216MB Coming soon

    公开了采用的数据集

    https://github.com/Toyhom/Chinese-medical-dialogue-data

    如上表所述,总计6个文件夹,792099个问答对:

    • 94596个问答对
    • 220606个问答对
    • 183751个问答对
    • 75553个问答对
    • 101602个问答对
    • 115991个问答对

    训练样本采用了已有数据集,也包括爬取的默沙东诊疗手册的程序等。

    模型训练

    项目给出了基于Lora及P-Tuning2进行微调的较为明确的说明,包括量化调整方式等。 作者论文中谈到可以用A100 80G单卡13小时,即可以得到具备医疗领域知识的一个模型。

    项目同时给出了基于Gradio的模型部署测试程序。 作者指出基于P-Tunning2的微调才能较好地支持多轮对话。

    开放程度

    项目给出了微调训练相关的代码及数据(包括数据抓取程序、英文问答中文转换程序等),是相对完整的开源体系,并建立了开发者群,总体而言开放程度较高。

    没有明确说明授权模式。