HuatuoGPT(華佗GPT)是開源中文醫療大模型,基於醫生回復和ChatGPT 回复,讓語言模型成為醫生,提供豐富且準確的問診。
HuatuoGPT 致力於通過融合ChatGPT 生成的“蒸餾數據” 和真實世界醫生回复的數據,以使語言模型具備像醫生一樣的診斷能力和提供有用信息的能力,同時保持對用戶流暢的交互和內容的豐富性,對話更加絲滑。
HuatuoGPT 使用了四種不同的數據集,分別如下:
- 蒸餾ChatGPT 指令數據集(Distilled Instructions from ChatGPT):這個數據集受到Alpaca 模型創建指令集的方法啟發,從ChatGPT 中提煉出醫療相關的指令。與之前工作不同的是,本方法還加入了科室和角色信息,根據採樣的科室或角色生成符合條件的指令數據集。
- 真實醫生指令數據集(Real-world Instructions from Doctors):這個數據集來源於真實醫生和患者之間的問答。醫生的回复通常簡潔且口語化,因此本方法通過潤色以提高其可讀性。
- 蒸餾ChatGPT 對話數據集(Distilled Conversations from ChatGPT):這個數據集通過為兩個ChatGPT 模型提供共享的對話背景,讓它們分別模仿醫生和患者進行對話。
- 真實醫生對話數據集(Real-world Conversations with Doctors):這個數據集來源於真實醫生的對話,但對醫生的回複使用模型進行了潤色。
這些數據集共同為模型提供了一個統一的語言模式、醫生的診斷能力以及指令跟隨能力。
#華佗GPT首頁文檔和下載 #開源中文醫療大模型 #程式开发