包含标签 Ollama 的文章

Ollama 模型内存卸载方案总结

2024年8月13日

Ollama 模型内存卸载方案总结

该问题主要讨论如何让 Ollama 在不需要时卸载模型从内存中，以便释放显存资源。以下是社区的解决方案：

1. 自动卸载机制:

默认情况下，Ollama 会自动在5分钟后卸载模型，这可以加快对多个请求的响应时间。

2. keep_alive 参数控制:

使用 /api/generate 或 /api/chat API 端点中的 keep_alive 参数来控制模型加载时长。
- -1 或 "-1m"：永久保持模型加载状态。
- 数字表示秒数：例如3600 表示 1 小时。
- 0：立即卸载模型，释放资源。

示例:

……