Chutes Miner 硬件配置与网络部署方案

原创

用户1185599

发布于 2025-10-20 12:12:43

210

Chutes Miner 是一个基于 Kubernetes 的大规模 GPU 推理平台，旨在高效利用闲置的 GPU 算力。通过 Chutes Miner，用户可以轻松地将闲置的 GPU 资源转化为收益，同时享受高性能、高可用性的服务体验。本方案将详细介绍如何部署一个稳定运行的 Chutes Miner 系统，包括硬件配置和网络要求等关键信息。

Chutes Miner 部署所需的硬件配置与网络要求方案，如下👇

一、总体架构

Chutes Miner 系统运行在 Kubernetes (推荐 k3s) 集群中，分为两类节点：

控制节点（CPU 节点）：负责运行核心服务（Postgres、Redis、Gepetto、API 等）
工作节点（GPU 节点）：负责执行 GPU 推理任务（Chutes）

所有节点之间要求 内网全互通（无防火墙隔离），且具备 独立公网 IP（静态）。

二、硬件配置要求

1. 控制节点（CPU 节点）

项目	最低配置	推荐配置	说明
CPU	4 核	8 核+	运行数据库、K8s 控制面、API、Redis、Gepetto
内存	32 GB	64 GB+	同时运行多服务
硬盘	500 GB SSD	1 TB NVMe SSD	存放容器镜像、缓存、日志
网络	静态公网 IP	固定公网 IP，1Gbps+	控制所有 GPU 节点
操作系统	Ubuntu 22.04 LTS	同步官方建议	建议关闭 SELinux、防火墙

2. GPU 节点（工作节点）

项目	要求	说明
GPU	NVIDIA A10 / A5000 / T4 / A40 / L40S / H100 等	建议混合部署不同性能 GPU，提升任务匹配度
GPU 驱动	支持 CUDA，建议 ≥ 12.0	需与 GraVal 验证兼容
CPU	至少 16 核	支撑多 GPU 并发调度
内存	等于或高于 GPU VRAM 总和	例如：4×A40(48GB) → 192GB 系统内存
硬盘	1TB NVMe SSD（建议3TB以上）	存放模型缓存与中间镜像文件
网络	独立静态公网 IP (建议香港网络)	每个 GPU 节点均需公网访问
操作系统	Ubuntu 22.04 LTS	k3s 节点推荐系统

⚠️ 关键注意：

内存必须 ≥ GPU 总显存，否则部署会失败（例如 48GB VRAM GPU → 系统需 48GB RAM）。
允许 Kubernetes 动态分配端口（Ephemeral Range: 30000–32767）。
推荐配置 SSD/NVMe 高速存储，以减少 HuggingFace 模型加载延迟。

三、存储建议

路径	用途	说明
`/var/snap`	HuggingFace 模型缓存、容器镜像	若主盘挂载路径不同（如 `/home`、`/ephemeral`），需进行 bind mount 映射
`/var/snap/postgres-data`	Postgres 数据卷	若出现身份验证错误，可清空此目录后重新部署

四、网络要求

项目	要求	说明
节点互通	所有节点必须双向开放所有端口（TCP/UDP）	保证 k3s 集群通信、pod 调度
公网访问	GPU 节点需公网可达	Validator 与 Miner 交互使用
防火墙配置	建议关闭或仅允许白名单端口	若需限制，请至少开放以下端口：
Kubernetes Ephemeral Range	30000–32767	Chutes 部署随机端口
Miner API	默认 32000	CLI 与控制面通信
Grafana	默认 30080	监控面板访问
带宽	上下行 ≥ 100 Mbps（推荐 1 Gbps）	模型拉取与计算结果同步
延迟	内网 < 1ms；公网 < 50ms	提升 GraVal 与任务响应速度

五、节点数量建议

部署规模	控制节点数	GPU 节点数	说明
单节点测试	1	1	可用于验证部署流程
小规模集群	1	2–4	推荐最低运行标准
中等规模	1	8–16	支撑多任务并发计算
大规模矿工	1	32+	适合长期运行与稳定收益

六、网络拓扑示意（简化）

七、额外建议

使用 ansible 自动部署脚本，避免手动配置错误；undefined
使用 Grafana（默认端口 30080）监控节点运行状态；
定期清理缓存模型（超过 500GB 或 30天未使用）；
建议部署时统一时间同步（Chrony/NTP）；
使用 SSD/NVMe 存储 HuggingFace 模型加速冷启动。
如果是中国用户建议使用香港网络或VPS。

💻 支持的 GPU 型号与性能参数对照表

以下数据来自chutes-miner官方配置要求，涵盖 RTX、A 系列、L 系列、H 系列等主流 GPU，用于部署 Chutes Miner、Bittensor、AI 推理等高性能任务环境。

分类	GPU型号	显卡识别名	显存(GB)	架构	Tensor Cores	SM数	频率(Base/Boost MHz)	每SM线程数	ECC	SXM	成本($/h)	Graval(迭代/估算)
🟩 RTX 系列	RTX 3090	RTX 3090	24	8.6	328	82	1395 / 1695	1536	否	否	0.25	1 / 70
	RTX 4090	RTX 4090	24	8.9	512	128	2235 / 2520	1536	否	否	0.40	2 / 65
	RTX 5090	RTX 5090	32	12.0	680	170	2017 / 2407	1536	否	否	0.70	2 / 60
🟦 A 系列 (工作站/数据中心)	RTX A4000	RTX A4000	16	8.6	168	48	765 / 1560	1536	是	否	0.20	1 / 75
	RTX 4000 Ada	RTX 4000 Ada	20	8.9	192	48	765 / 2175	1536	是	否	0.21	1 / 80
	RTX A5000	RTX A5000	24	8.6	256	64	1170 / 1695	1536	否	否	0.25	1 / 92
	RTX A6000	RTX A6000	48	8.6	336	84	1455 / 1860	1536	是	否	0.50	1 / 140
	RTX 6000 Ada	RTX 6000 Ada	48	8.9	568	142	915 / 2505	1536	是	否	0.75	1 / 60
	RTX PRO 6000	RTX PRO 6000	96	—	—	188	1590 / 2617	1024	—	—	1.80	1 / 103
🟨 L 系列 (低功耗服务器)	L4	L4	24	8.9	240	58	795 / 2040	1536	是	否	0.25	1 / 85
	L40	L40	48	8.9	568	142	735 / 2490	1536	是	否	0.55	1 / 60
	L40S	L40S	48	8.9	568	142	1065 / 2520	1536	是	否	0.85	1 / 60
🟥 A100 系列 (Ampere HPC)	A10	A10	24	8.6	208	72	1110 / 1710	1536	是	否	0.25	1 / 82
	A40	A40	48	8.6	336	84	1305 / 1740	1536	是	否	0.50	1 / 142
	A100 40GB PCIe	A100 PCIE 40GB	40	8.0	432	108	1065 / 1410	2048	是	否	1.10	4 / 60
	A100 40GB SXM	A100 SXM 40GB	40	8.0	432	108	1065 / 1410	2048	是	是	1.15	4 / 60
	A100 80GB PCIe	A100 80GB PCIe	80	8.0	432	108	1065 / 1410	2048	是	否	1.20	2 / 58
	A100 80GB SXM	A100 SXM 80GB	80	8.0	432	108	1275 / 1410	2048	是	是	1.25	3 / 70
🟧 H 系列 (Hopper HPC)	H100 PCIe	H100 PCIe	80	9.0	456	114	1095 / 1755	2048	是	否	1.79	2 / 62
	H100 NVL	H100 NVL	96	9.0	456	132	1590 / 1980	2048	是	是	2.25	3 / 75
	H100 SXM	H100 HBM3	80	9.0	528	132	1590 / 1980	2048	是	是	2.35	5 / 70
	H800 PCIe	H800 PCIe	80	9.0	456	114	1095 / 1755	2048	是	否	1.50	3 / 75
	H20	H20	96	—	—	78	1590 / 1980	1024	—	—	0.60	1 / 300
	H200	H200	140	9.0	528	132	1590 / 1980	2048	是	是	2.75	3 / 70
🟪 其他高端 GPU	MI300X	gfx942:sramecc	192	—	—	304	1600 / 2100	256	—	—	3.00	2 / 75
	B200	B200	192	—	—	148	1590 / 1965	1024	—	—	4.50	2 / 75

💡 提示

ECC：错误校正码 (Error-Correcting Code)，数据中心 GPU 常见特性。
SXM：NVIDIA 模块化 GPU 接口，通常提供更高的带宽与功耗上限。
Graval：内部性能估算参数，用于 AI 任务负载调度优化。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

AI 互动体验展

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

AI 互动体验展

登录后参与评论

0 条评论

热度

Chutes Miner 硬件配置与网络部署方案

Chutes Miner 硬件配置与网络部署方案

一、总体架构

二、硬件配置要求

1. 控制节点（CPU 节点）

2. GPU 节点（工作节点）

⚠️ 关键注意：

三、存储建议

四、网络要求

五、节点数量建议

六、网络拓扑示意（简化）

七、额外建议

💻 支持的 GPU 型号与性能参数对照表

💡 提示

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐