1. MedicalGPT-zh - 一个基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型 (2023年7月更名为MING)
项目简介
项目最初开源了基于ChatGLM-6B LoRA 16-bit指令微调的中文医疗通用模型。基于共计28科室的中文医疗共识与临床指南文本,从而生成医疗知识覆盖面更全,回答内容更加精准的高质量指令数据集。以此提高模型在医疗领域的知识与对话能力。
项目由上海交通大学未来媒体网络协同创新中心和上海人工智能实验室智慧医疗中心合作研发。
2023年7月MedicalGPT-zh更名为MING,相关基础模型及微调训练数据等等做了全新的更新。
论文及开源地址
开源地址原为:
https://github.com/MediaBrain-SJTU/MedicalGPT-zh
会自动重定位到
https://github.com/MediaBrain-SJTU/MING
数据集构建
本项目数据主要分为两个部分:情景对话与知识问答
数据类型 | 描述 | 数量 | 占比(%) |
---|---|---|---|
情景对话 | 在具体场景下的医患诊疗对话 | 52k | 28.57 |
知识问答 | 医学知识问题的解释性回答 | 130k | 71.43 |
总计 | - | 182k | 100 |
情景对话:主要参考BELLE的指令数据集生成方式,将医学指令按照诊疗情景的不同主要分为16种大类,通过100条情景对话种子任务生成的52k条情景对话数据。 提供了情景对话种子任务及生成情景对话数据的程序,最终生成的52k情景对话数据医学指令类型及其分布如图所示。
其中提到的BELLE, Be Everyone’s Large Language model Engine(开源中文对话大模型),地址为:
https://github.com/LianjiaTech/BELLEhttps://github.com/LianjiaTech/BELLE/blob/main/docs/Towards%20Better%20Instruction%20Following%20Language%20Models%20for%20Chinese.pdfhttps://github.com/LianjiaTech/BELLE/blob/main/docs/A%20Comparative%20Study%20between%20Full-Parameter%20and%20LoRA-based.pdf
知识问答:医学知识来源于自建的医学数据库。通过提供具体的医疗共识与临床指南文本,先让ChatGPT生成与该段医学知识内容与逻辑关系相关的若干问题,再通过“文本段-问题”对的方式让ChatGPT回答问题,从而使ChatGPT能够生成含有医学指南信息的回答,保证回答的准确性。知识问答与医疗指南、依据医疗指南生成的知识问答样例都有提供, 并提供了知识问答数据生成的程序。其中,医疗共识与临床指南中文本段涵盖28个科室共计32k个文本段。 各科室及其分布如图所示。
模型输出样例,显得更有层次条理。
模型训练
项目训练代码采用模型并行算法,可以在最少4张3090显卡上完成对ChatGLM LoRA 16-bit的指令微调。
开放程度
项目初始发布时,github上给出了数据集的构建程序、模型训练程序及运行命令行代码,可直接运行。2023年7月份,相关的程序库都已消失,变成了如下的更为概略的MING模型。
保留该模型的目的,仅仅是从其原有开放资料中,了解借鉴相关的技巧方法。