



2026年3月14日,ollama v0.18.0正式发布,这是一次极具里程碑意义的版本更新。本次更新围绕云模型、集成启动、Claude代码支持、OpenAI兼容接口、命令行体验及中间件处理能力等多个维度进行了系统优化和重大改进。无论是使用本地模型还是云端大模型的开发者,都能在此版本中获得更加流畅、智能和安全的体验。
以下为本次 v0.18.0 版本的详细更新内容与技术解读。
ollama pull 下载云模型,只需在模型名称后添加 :cloud 标签,即可自动连接云端模型。ollama run <model:cloud> 时,会自动拉取云模型的“stub”信息,完成兼容性适配。reasoning_effort 参数支持说明,可在推理型模型中控制推理强度("high"、"medium"、"low"、"none")。ollama ls 正确识别。middleware 层在处理非 JSON 错误时可自动回退字节错误提示,避免解析错误干扰。Content-Encoding: zstd 并清除标头后运行。在 cmd/cmd.go 中,新增加了 ensureCloudStub 函数,用于匹配传统 ollama run some-model:cloud 的行为。当用户显式指定云源模型时,系统会自动尝试拉取对应的云 stub 文件。此步骤保证即便本地未缓存模型,也能正常启动连接。
命令行的执行流程现在支持:
测试文件 cmd/cmd_test.go 增加了多组验证用例:
/api/generate 保证生成任务不受影响。此外,新增针对云模型继承关系的测试场景:
在 NewCreateRequest 中,当启动会话以 :cloud 结尾时,父模型若无 cloud 来源,则自动清理父模型标记,防止错误地创建本地衍生版本。
cmd/launch/claude.go 的 modelEnvVars 函数进行了重构:
CLAUDE_CODE_AUTO_COMPACT_WINDOW,用于自动根据云模型上下文大小设置 Claude Code 的压缩窗口。对应测试 cmd/launch/claude_test.go 校验:
glm-5:cloud对应202752);该改动显著提升了 Claude 在多模型之间切换时的记忆稳定性与上下文利用率。
在 launch.go 中,新增了对 LaunchPolicy 的升级:
defaultLaunchPolicy(interactive, yes bool);--yes 标记时(包括非交互环境),自动将确认模式设为“自动批准”,缺失模型策略设为“自动拉取”。
而在无交互且未指定 yes 的场景,则强制要求明确输入并在模型缺失时失败退出。同时,在无头模式下,--yes 启动时增加安全检查:
若用户未显式指定
--model参数,则命令会直接报错提示 —— “requires --model ”,确保自动化执行不会错误启动。
另一个重要改进点是: 在无交互但带有自动批准模式时,系统会自动选择“上次使用的模型”进行运行。 这项优化避免了脚本化任务中因模型选择项缺失导致的中断。
测试 launch_test.go 对此功能给出充分验证:
--yes 场景时,系统能自动选用上次运行模型;更新后的 buildModelList 和 TUI 选择器逻辑增强了“本地与云模型的精确匹配”机制:
在 selector.go 的 cursorForCurrent 函数中新增两阶段匹配逻辑:
"qwen3.5:cloud" 与 "qwen3.5")。与此同时,multiSelectorModel.toggleItem 也进行了升级:
这些修改使得多模型选择流程更自然、更合理,尤其在编辑器集成与多模型协作场景下显著提升使用体验。
在 middleware/anthropic.go 与 middleware/openai.go 中,对错误响应处理进行了安全回退改造:
同时,新增 maxDecompressedBodySize 限制(20MB),并在云代理层引入 zstd 解压与体积控制。
在云代理 (server/cloud_proxy.go) 中:
Content-Encoding: zstd 时会自动解压;400 Bad Request,保护系统资源安全。测试 cloud_proxy_test.go 中验证了完整流程:
"model":"test-model:cloud";该系列优化让 ollama 在云代理链路中面对混合编码响应时更加稳定与高效。
在 docs/openai_compat.md 和相关实现层中,v0.18.0 对 OpenAI 兼容性接口进行了进一步完善,使得 ollama 的 OpenAI 格式推理 API(/v1/chat/completions 与 /v1/completions)与主流云模型的适配更加完整。
reasoning_effort"none", "low", "medium", "high"。thinking 字段支持,当模型提供内部推理痕迹时可通过专有 schema 输出。X-Ollama-Thinking 等 HTTP 头的能力,以保障流式响应过程中推理过程的透明性。在 middleware/openai_test.go 与 api/openai_test.go 中新增多组用例,确保:
reasoning_effort=high 时返回延时与token消耗可控;这一系列改进意味着从 v0.18.0 开始,ollama 的 OpenAI 接口可作为外部应用无缝接入的通用标准接口,不论使用哪种模型后端(本地或云端)都无需修改调用逻辑。
ollama v0.18.0 是一次打通 本地模型与云模型交互壁垒 的关键版本。 从底层结构到开发者体验,它实现了三大跃迁:
对于开发者的建议:
--yes 模式并显式指定 --model 参数。CLAUDE_CODE_AUTO_COMPACT_WINDOW 环境变量,可显著改善上下文利用率。http://localhost:11434/v1,获得最佳兼容体验。代码地址:github.com/ollama/ollama
ollama v0.18.0 通过云端智能接入与全栈优化,正在重塑「本地 + 云」混合大模型体验。 无论你是热衷本地推理的开发者,还是依赖多云 LLM 的企业团队,这一版本都为你提供了更自由、更安全、更高效的模型运行方式。
·
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
·