Ollama 模型内存卸载方案总结

该问题主要讨论如何让 Ollama 在不需要时卸载模型从内存中,以便释放显存资源。 以下是社区的解决方案:

1. 自动卸载机制:

  • 默认情况下,Ollama 会自动在5分钟后卸载模型,这可以加快对多个请求的响应时间。

2. keep_alive 参数控制:

  • 使用 /api/generate/api/chat API 端点中的 keep_alive 参数来控制模型加载时长。
    • -1"-1m":永久保持模型加载状态。
    • 数字表示秒数:例如3600 表示 1 小时。
    • 0:立即卸载模型,释放资源。

示例:

……

阅读全文