序言 - 《开源中文医疗大模型（18+）概览（202308）》

序言

自基于GPT-3.5的ChatGPT版本2022年年底震撼问世以来，如何利用通用大模型的优势，结合各垂直行业与领域专业知识积累及业务流程规范，打造领域大模型，从而有效支撑各领域日常问答、专业咨询乃至解决方案建议，无疑成为大模型应用落地探索的一大方向和趋势。

在医疗领域，国外以Google为代表持续在医疗大模型方面探索发力，由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLM M于2023年月发布，该模型懂临床语言、懂影像，也懂基因组学，在美国执业医师资格考试（USMLE）中通过率高达85.4%，从技能上已经达到专业医生的水平，令人振奋。

而国内各研发机构、医疗机构及LLM Geeker也不甘落后，以极大的精力与热情，从2023年起，结合中文环境下的、医疗问诊、中药特色以及日趋更为关键的心理学领域进行了大量的尝试，并且总体体现了开放共享，共襄盛世的百花齐放的格局，无论从大模型基座的选择、大模型微调技术、专业领域数据集构建方法、开放专业训练数据集、微调训练推理经济成本考量、中文医疗大模型评价标准和医疗健康在心理健康领域的衍生，都呈现了各自的特色，可谓精彩纷呈。

值得高兴的是，部分开源医疗大模型项目团队作者，不局限于初步成果，持续探索更新，无论在基座灵活支持、中文医疗数据集、微调训练方法及效果评价不断开放提升方面，都继续发力，如DoctorGLM, MedicalGPT、ChatMed及MedQA等项目，尤其是MedQA项目，在复现过程及后续不断推出的更具开放性先进性的IvyGPT-CareLlma等，无疑都展现了该领域研发探索先锋的Geek/Guru风范。

本文根据现有中文开源大模型网络众神们的总结分析，结合个人浏览调研行业发展浅见，编制形成本文，意图对发展中的中文医疗大模型提供多方面概览，呈现采撷各自精彩与独特之处，共同见证LLM应用探索、演化与实践，在组织结构及内上也引用了不少附录中（中文综述）专家的成果，在此一并致谢，其中有不尽之处，也敬请海涵指正。

如同各开源模型指出的，这些大模型都是在研发探索阶段，包括AI Ethics的隐忧等，尚不足以成熟到作实际医用诊疗；但如果这些开放性研发探索，能够从某种程度上，通过中文医疗卫生大模型及其生态应用，加强中文-中药医卫乃至心理咨询方面的大众的专业认知与素养，让具有庞大人口基数的中华14亿大众，身边多个垂手可得的专家，让华佗扁鹊医者仁心的AI Ethics与技艺能够继续洋溢人间，都不啻为一种有益的尝试。

本文所归纳内容截止2023年8月底，纯属兴趣所致，难免社科偏颇，格式从word导入调整，怎么调整都显得凌乱，权作笔记参考。再次致谢参考引文中的各路大神！