3. DoctorGLM
项目简介
项目是基于ChatGLM-6B的中文问诊模型,发布于2023年6月份。
论文及源码
项目共公开了微调的源码,包括利用Lora及P-Tuning2的微调方法。
https://github.com/xionghonglin/DoctorGLM
论文地址为:
https://arxiv.org/abs/2304.01097DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task
相关的两个技术分享:
https://zhuanlan.zhihu.com/p/619602165100块训练自己的私人家庭医生(LLM)
https://zhuanlan.zhihu.com/p/622649076低成本训练医疗ChatGPT踩坑记
数据来源
采用了以下的数据分类
Dataset | Department | Language | Q&A | Chat | Number | Syn. | Size | Weight |
---|---|---|---|---|---|---|---|---|
CMD. | Surgical | CN | ✔ | × | 116K | × | 52MB | |
Obstetrics and Gynecology | CN | ✔ | × | 229K | × | 78MB | ||
Pediatrics | CN | ✔ | × | 117K | × | 47MB | ||
Internal Medicine | CN | ✔ | × | 307K | × | 102MB | ||
Andriatria | CN | ✔ | × | 113K | × | 44MB | ||
Merged | CN | ✔ | × | 1.9M | × | Doctor_GLM/ckpt | ||
MedDialog | Multiple | CN&EN | ✔ | ✔ | 3.4M | × | 1.5GB | ptuning_weight |
ChatDoctor | Multiple | EN | ✔ | × | 5.4K | ✔ | 2.9MB | Coming soon |
HearlthcareMagic | Multiple | EN | ✔ | × | 200K | × | 216MB | Coming soon |
公开了采用的数据集
https://github.com/Toyhom/Chinese-medical-dialogue-data
如上表所述,总计6个文件夹,792099个问答对:
94596个问答对 220606个问答对 183751个问答对 75553个问答对 101602个问答对 115991个问答对
训练样本采用了已有数据集,也包括爬取的默沙东诊疗手册的程序等。
模型训练
项目给出了基于Lora及P-Tuning2进行微调的较为明确的说明,包括量化调整方式等。 作者论文中谈到可以用A100 80G单卡13小时,即可以得到具备医疗领域知识的一个模型。
项目同时给出了基于Gradio的模型部署测试程序。 作者指出基于P-Tunning2的微调才能较好地支持多轮对话。
开放程度
项目给出了微调训练相关的代码及数据(包括数据抓取程序、英文问答中文转换程序等),是相对完整的开源体系,并建立了开发者群,总体而言开放程度较高。
没有明确说明授权模式。