大語言模型文本生成推理Text Generation Inference

用於文本生成推理的Rust、Python 和gRPC 服務器。在HuggingFace的生產中用於為LLM 的api 推理小部件提供支持。特性: 使用簡單的啟動器為最流行的大型語言模型提供服務Tensor Parallelism 用於在多個GPU 上進行更快的推理使用服務器發送事件(SSE) 的令牌流連續批處理傳入請求以提高總吞吐量優化的變換器代碼,用於在最流行的架構上使用flash-attention進行推理使用bitsandbytes 進行量化Safetensors weight loadi…

#大語言模型文本生成推理Text #Generation #Inference

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *