数据集构建

    本项目数据主要分为两个部分:情景对话与知识问答

    数据类型 描述 数量 占比(%)
    情景对话 在具体场景下的医患诊疗对话 52k 28.57
    知识问答 医学知识问题的解释性回答 130k 71.43
    总计 - 182k 100

    情景对话:主要参考BELLE的指令数据集生成方式,将医学指令按照诊疗情景的不同主要分为16种大类,通过100条情景对话种子任务生成的52k条情景对话数据。 提供了情景对话种子任务及生成情景对话数据的程序,最终生成的52k情景对话数据医学指令类型及其分布如图所示。

    其中提到的BELLE, Be Everyone’s Large Language model Engine(开源中文对话大模型),地址为:
    https://github.com/LianjiaTech/BELLEhttps://github.com/LianjiaTech/BELLE/blob/main/docs/Towards%20Better%20Instruction%20Following%20Language%20Models%20for%20Chinese.pdfhttps://github.com/LianjiaTech/BELLE/blob/main/docs/A%20Comparative%20Study%20between%20Full-Parameter%20and%20LoRA-based.pdf
    知识问答:医学知识来源于自建的医学数据库。通过提供具体的医疗共识与临床指南文本,先让ChatGPT生成与该段医学知识内容与逻辑关系相关的若干问题,再通过“文本段-问题”对的方式让ChatGPT回答问题,从而使ChatGPT能够生成含有医学指南信息的回答,保证回答的准确性。知识问答与医疗指南、依据医疗指南生成的知识问答样例都有提供, 并提供了知识问答数据生成的程序。其中,医疗共识与临床指南中文本段涵盖28个科室共计32k个文本段。 各科室及其分布如图所示。

    模型输出样例,显得更有层次条理。