Infinity: 高性能模型服务引擎,加速你的AI应用
Infinity:你的高吞吐量、低延迟模型服务引擎
厌倦了缓慢的模型推理?想要轻松部署各种文本嵌入、重排序和多模态模型?Infinity来了!它是一个高性能的REST API服务引擎,能显著提升你的模型效率,让你不再为延迟和吞吐量而烦恼。
Infinity解决了什么问题?
想象一下:你拥有强大的Hugging Face模型,却受困于部署和推理速度。Infinity 就是你解脱的良方!它能轻松部署Hugging Face上的任何嵌入、重排序、CLIP、CLAP和ColPali模型,并利用PyTorch、Optimum (ONNX/TensorRT)和CTranslate2等后端,结合FlashAttention,充分发挥你的NVIDIA CUDA、AMD ROCM、CPU、AWS INF2或Apple MPS加速器的性能。动态批处理和专用工作线程的token化更是锦上添花,确保低延迟和高吞吐量。
……