用於文本生成推理的Rust、Python 和gRPC 服務器。在HuggingFace的生產中用於為LLM 的api 推理小部件提供支持。特性: 使用簡單的啟動器為最流行的大型語言模型提供服務Tensor Parallelism 用於在多個GPU 上進行更快的推理使用服務器發送事件(SSE) 的令牌流連續批處理傳入請求以提高總吞吐量優化的變換器代碼,用於在最流行的架構上使用flash-attention進行推理使用bitsandbytes 進行量化Safetensors weight loadi… |
#大語言模型文本生成推理Text #Generation #Inference