Ollama 模型内存卸载方案总结
Ollama 模型内存卸载方案总结
该问题主要讨论如何让 Ollama 在不需要时卸载模型从内存中,以便释放显存资源。 以下是社区的解决方案:
1. 自动卸载机制:
- 默认情况下,Ollama 会自动在5分钟后卸载模型,这可以加快对多个请求的响应时间。
2. keep_alive 参数控制:
- 使用
/api/generate或/api/chatAPI 端点中的keep_alive参数来控制模型加载时长。-1或"-1m":永久保持模型加载状态。- 数字表示秒数:例如
3600表示 1 小时。 0:立即卸载模型,释放资源。
示例:
……