Infinity: 高性能模型服务引擎,加速你的AI应用
Infinity:你的高吞吐量、低延迟模型服务引擎
厌倦了缓慢的模型推理?想要轻松部署各种文本嵌入、重排序和多模态模型?Infinity来了!它是一个高性能的REST API服务引擎,能显著提升你的模型效率,让你不再为延迟和吞吐量而烦恼。
Infinity解决了什么问题?
想象一下:你拥有强大的Hugging Face模型,却受困于部署和推理速度。Infinity 就是你解脱的良方!它能轻松部署Hugging Face上的任何嵌入、重排序、CLIP、CLAP和ColPali模型,并利用PyTorch、Optimum (ONNX/TensorRT)和CTranslate2等后端,结合FlashAttention,充分发挥你的NVIDIA CUDA、AMD ROCM、CPU、AWS INF2或Apple MPS加速器的性能。动态批处理和专用工作线程的token化更是锦上添花,确保低延迟和高吞吐量。
谁需要Infinity?
如果你是一位机器学习工程师、研究人员或开发者,需要快速、高效地部署和服务各种文本嵌入、重排序及多模态模型,那么Infinity正合你意。它支持多种模型和模态的混合匹配,简化了你的工作流程。
如何使用Infinity?
Infinity 提供了多种便捷的使用方式:
- 简单快捷的 CLI: 使用
pip install infinity-emb[all]
安装后,即可通过简单的命令行指令启动服务,例如:infinity_emb v2 --model-id BAAI/bge-small-en-v1.5
。 更高级的使用方法,包括环境变量配置和多模型同时启动,都清晰地记录在文档中。 - 预构建的Docker镜像: 针对CPU、AMD ROCm和NVIDIA GPU (包含TensorRT和ONNX优化) 提供了预构建的Docker镜像,方便快捷地部署到各种环境。
- 强大的Python API: Infinity 还提供了功能强大的Python API,让你能够更灵活地控制模型和进行异步处理,实现高度定制化的应用。文档中提供了丰富的代码示例,涵盖了嵌入、重排序、CLIP和CLAP模型的使用。
- 易用的RestAPI客户端: 通过
pip install infinity_client
安装客户端轻松调用远程Infinity实例。
核心功能一览:
Infinity 支持多种任务和模型,包括:
- 文本嵌入: 支持众多Hugging Face上的流行模型,如BAAI/bge系列、sentence-transformers/all-MiniLM-L6-v2等等。
- 重排序: 提升搜索结果的相关性,支持多种BERT风格的分类模型。
- 多模态(CLIP & CLAP): 实现图像-文本和音频-文本的跨模态搜索。
- ColBERT & ColPali: 支持基于late-interaction的嵌入模型。
- 文本分类: 进行情感分析、情绪检测等任务。
访问地址及文档:
Infinity 持续更新,不断添加新的功能和支持的模型。立即体验,感受飞一般的速度!
- 原文作者:iamdev
- 原文链接:https://blog.iamdev.cn/post/2025/Infinity_-%E9%AB%98%E6%80%A7%E8%83%BD%E6%A8%A1%E5%9E%8B%E6%9C%8D%E5%8A%A1%E5%BC%95%E6%93%8E%E5%8A%A0%E9%80%9F%E4%BD%A0%E7%9A%84AI%E5%BA%94%E7%94%A8/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止转载 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。