AudioGPT 是一個借助大語言模型(LLM) 處理音頻的工具。
AudioGPT 在收到用戶請求時使用ChatGPT 進行任務分析,根據語音基礎模型中可用的功能描述選擇模型,用選定的語音基礎模型執行用戶指令,並根據執行結果匯總響應。借助ChatGPT 強大的語言能力和眾多的語音基礎模型,AudioGPT 能夠完成幾乎所有語音領域的任務。
具體來說,AudioGPT 運行過程可以分成4 個階段:模態轉化、任務分析、模型分配和回復生成。
AudioGPT 核心功能
- 生成音樂
- 背景音效
- 音頻生成字幕
- 文字生成音頻
- 文字生成音頻並模擬聲音
- 根據圖片生成音頻
- 對音頻進行inpaint(局部屏蔽)
- 根據音頻和人臉照片合成視頻
- 檢測音頻中的事件,以及開始和結束時間
- 單聲道變雙聲道
- 通過文本描述檢測特定聲音發生的時間
- 抽取某種聲音
- 去除背景噪音
- 多人混合聲分離出單人聲音
- 語音翻譯
#AudioGPT首頁文檔和下載 #基於LLM #的音頻助手 #Development details