Infinity:你的高吞吐量、低延迟模型服务引擎

厌倦了缓慢的模型推理?想要轻松部署各种文本嵌入、重排序和多模态模型?Infinity来了!它是一个高性能的REST API服务引擎,能显著提升你的模型效率,让你不再为延迟和吞吐量而烦恼。

Infinity解决了什么问题?

想象一下:你拥有强大的Hugging Face模型,却受困于部署和推理速度。Infinity 就是你解脱的良方!它能轻松部署Hugging Face上的任何嵌入、重排序、CLIP、CLAP和ColPali模型,并利用PyTorch、Optimum (ONNX/TensorRT)和CTranslate2等后端,结合FlashAttention,充分发挥你的NVIDIA CUDA、AMD ROCM、CPU、AWS INF2或Apple MPS加速器的性能。动态批处理和专用工作线程的token化更是锦上添花,确保低延迟和高吞吐量。

谁需要Infinity?

如果你是一位机器学习工程师、研究人员或开发者,需要快速、高效地部署和服务各种文本嵌入、重排序及多模态模型,那么Infinity正合你意。它支持多种模型和模态的混合匹配,简化了你的工作流程。

如何使用Infinity?

Infinity 提供了多种便捷的使用方式:

  • 简单快捷的 CLI: 使用 pip install infinity-emb[all] 安装后,即可通过简单的命令行指令启动服务,例如:infinity_emb v2 --model-id BAAI/bge-small-en-v1.5。 更高级的使用方法,包括环境变量配置和多模型同时启动,都清晰地记录在文档中。
  • 预构建的Docker镜像: 针对CPU、AMD ROCm和NVIDIA GPU (包含TensorRT和ONNX优化) 提供了预构建的Docker镜像,方便快捷地部署到各种环境。
  • 强大的Python API: Infinity 还提供了功能强大的Python API,让你能够更灵活地控制模型和进行异步处理,实现高度定制化的应用。文档中提供了丰富的代码示例,涵盖了嵌入、重排序、CLIP和CLAP模型的使用。
  • 易用的RestAPI客户端: 通过 pip install infinity_client 安装客户端轻松调用远程Infinity实例。

核心功能一览:

Infinity 支持多种任务和模型,包括:

  • 文本嵌入: 支持众多Hugging Face上的流行模型,如BAAI/bge系列、sentence-transformers/all-MiniLM-L6-v2等等。
  • 重排序: 提升搜索结果的相关性,支持多种BERT风格的分类模型。
  • 多模态(CLIP & CLAP): 实现图像-文本和音频-文本的跨模态搜索。
  • ColBERT & ColPali: 支持基于late-interaction的嵌入模型。
  • 文本分类: 进行情感分析、情绪检测等任务。

访问地址及文档:

Infinity 持续更新,不断添加新的功能和支持的模型。立即体验,感受飞一般的速度!