作为一名AI技术从业者,我每天都需要大量使用Claude Code进行编程和代码审查。然而,随着使用频率的增加,API费用也水涨船高——每月约200美金的支出成为了不可忽视的成本负担。
为了解决这个问题,我决定探索本地化部署方案,通过Claude Router结合开源大模型来替代部分API调用。
Claude Router是一个强大的工具,它能够:
经过对比测试,GPT-OSS:20B模型在以下方面表现出色:
Claude Code → Claude Router → GPT-OSS:20B (本地)
→ Claude API (云端,备用)
# 安装Homebrew (如果没有)/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"# 安装Ollamabrew install ollama# 安装Python和依赖brew install pythonpip install torch torchvision torchaudiopip install transformers accelerate# 安装Claude Code Routernpm install -g @saoudrizwan/claude-code-router
# 启动Ollama服务ollama serve# 下载GPT-OSS:20B模型 (注意:需要32GB以上内存)ollama pull gpt-oss:20b# 验证模型下载ollama list
对于Mac环境,我们使用Claude Code Router (ccr) 配合Ollama,配置更加简单:
创建配置文件 ~/.claude-code-router/config.json
:
{ "Providers": [ { "name": "ollama", "api_base_url": "http://127.0.0.1:11434/v1/chat/completions", "api_key": "ollama-local", "models": ["gpt-oss:20b"] } ], "Router": { "default": "ollama,gpt-oss:20b" }}
配置说明:
为了简化Mac用户的部署流程,我创建了一个自动化脚本 setup-claude-router.sh
:
#!/bin/zsh
set -e
# === 配置参数 ===
MODEL="gpt-oss:20b"
API_KEY="ollama-local"
OLLAMA_HOST="127.0.0.1:11434"
CONFIG_FILE="$HOME/.claude-code-router/config.json"
echo "🔍 检查 Homebrew 安装..."
if ! command -v brew >/dev/null 2>&1; then
echo "❌ Homebrew 未安装,请先执行:"
echo '/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"'
exit 1
fi
echo "🔍 检查 Ollama..."
if ! command -v ollama >/dev/null 2>&1; then
echo "📥 安装 Ollama..."
brew install ollama
fi
echo "🔍 检查 Claude Code Router..."
if ! command -v ccr >/dev/null 2>&1; then
echo "❌ 未检测到 ccr,请先安装 Claude Code Router"
echo "👉 参考文档: https://github.com/saoudrizwan/claude-code-router"
exit 1
fi
# === 启动 Ollama 服务 (默认 32k context) ===
echo "🚀 启动 Ollama 服务 (context_length=32768)..."
pkill ollama || true
OLLAMA_CONTEXT_LENGTH=32768 OLLAMA_API_KEY=$API_KEY ollama serve > /tmp/ollama.log 2>&1 &
sleep 2
# === 检查模型是否已拉取 ===
if ! ollama list | grep -q "$MODEL"; then
echo "📥 拉取模型: $MODEL ..."
ollama pull $MODEL
fi
# === 写入 Claude Code Router 配置 ===
echo "⚙️ 配置 Claude Code Router..."
mkdir -p "$(dirname $CONFIG_FILE)"
cat > $CONFIG_FILE <<EOF
{
"Providers": [
{
"name": "ollama",
"api_base_url": "http://$OLLAMA_HOST/v1/chat/completions",
"api_key": "$API_KEY",
"models": ["$MODEL"]
}
],
"Router": {
"default": "ollama,$MODEL"
}
}
EOF
# === 测试 Ollama API ===
echo "🧪 测试 Ollama API..."
curl -s http://$OLLAMA_HOST/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $API_KEY" \
-d "{
\"model\": \"$MODEL\",
\"messages\": [{\"role\":\"user\",\"content\":\"hello with 32k context\"}]
}" | jq '.choices[0].message.content'
# === 启动 Claude Code Router ===
echo "✅ 启动 Claude Code Router..."
exec ccr code
使用方法:
# 下载脚本
curl -o setup-claude-router.sh https://raw.githubusercontent.com/your-repo/setup-claude-router.sh
# 赋予执行权限
chmod +x setup-claude-router.sh
# 运行脚本
./setup-claude-router.sh
脚本功能说明:
CPU使用率
从监控数据可以看出,系统CPU使用率在正常负载下保持在40-60%之间,完全在可控范围内。
系统负载和CPU风扇
系统负载和CPU风扇转速都在正常范围内,说明硬件配置合理。
# 设置Metal后端加速
export PYTORCH_ENABLE_MPS_FALLBACK=1
# 优化内存使用
export OLLAMA_NUM_PARALLEL=1
export OLLAMA_MAX_LOADED_MODELS=1
# 启用Metal优化
ollama serve --metal
项目 | Claude API | 本地部署 | 节省 |
---|---|---|---|
月均费用 | $200 | $15 | $185 |
年均费用 | $2,400 | $180 | $2,220 |
def route_request(request_text):
# 简单的编程任务使用本地模型
if is_simple_coding_task(request_text):
return "local_gpt"
# 复杂的推理任务使用Claude API
if is_complex_reasoning(request_text):
return "claude_api"
# 默认使用本地模型
return "local_gpt"
通过Claude Router + GPT-OSS:20B的本地化部署方案,我成功将每日AI编程成本从$30降至几乎为零,同时保持了良好的使用体验。虽然前期有一定硬件投入,但从长期来看具有显著的经济效益。
对于有类似需求的开发者,我强烈推荐考虑这种本地化部署方案。它不仅能够大幅降低成本,还能提供更好的数据隐私保护和响应速度。
如果你对这个方案有任何问题或建议,欢迎在评论区交流。