AudioGPT首頁、文檔和下載- 基於LLM 的音頻助手- Development details

AudioGPT 是一個借助大語言模型(LLM) 處理音頻的工具。

AudioGPT 在收到用戶請求時使用ChatGPT 進行任務分析,根據語音基礎模型中可用的功能描述選擇模型,用選定的語音基礎模型執行用戶指令,並根據執行結果匯總響應。借助ChatGPT 強大的語言能力和眾多的語音基礎模型,AudioGPT 能夠完成幾乎所有語音領域的任務。

具體來說,AudioGPT 運行過程可以分成4 個階段:模態轉化、任務分析、模型分配和回復生成。

AudioGPT 核心功能

  • 生成音樂
  • 背景音效
  • 音頻生成字幕
  • 文字生成音頻
  • 文字生成音頻並模擬聲音
  • 根據圖片生成音頻
  • 對音頻進行inpaint(局部屏蔽)
  • 根據音頻和人臉照片合成視頻
  • 檢測音頻中的事件,以及開始和結束時間
  • 單聲道變雙聲道
  • 通過文本描述檢測特定聲音發生的時間
  • 抽取某種聲音
  • 去除背景噪音
  • 多人混合聲分離出單人聲音
  • 語音翻譯

#AudioGPT首頁文檔和下載 #基於LLM #的音頻助手 #Development details

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *