首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Chutes Miner 硬件配置与网络部署方案

Chutes Miner 硬件配置与网络部署方案

原创
作者头像
用户1185599
发布2025-10-20 12:12:43
发布2025-10-20 12:12:43
210
举报

Chutes Miner 是一个基于 Kubernetes 的大规模 GPU 推理平台,旨在高效利用闲置的 GPU 算力。通过 Chutes Miner,用户可以轻松地将闲置的 GPU 资源转化为收益,同时享受高性能、高可用性的服务体验。本方案将详细介绍如何部署一个稳定运行的 Chutes Miner 系统,包括硬件配置和网络要求等关键信息。


Chutes Miner 部署所需的硬件配置与网络要求方案,如下👇

一、总体架构

Chutes Miner 系统运行在 Kubernetes (推荐 k3s) 集群中,分为两类节点:

  • 控制节点(CPU 节点):负责运行核心服务(Postgres、Redis、Gepetto、API 等)
  • 工作节点(GPU 节点):负责执行 GPU 推理任务(Chutes)

所有节点之间要求 内网全互通(无防火墙隔离),且具备 独立公网 IP(静态)


二、硬件配置要求

1. 控制节点(CPU 节点)

项目

最低配置

推荐配置

说明

CPU

4 核

8 核+

运行数据库、K8s 控制面、API、Redis、Gepetto

内存

32 GB

64 GB+

同时运行多服务

硬盘

500 GB SSD

1 TB NVMe SSD

存放容器镜像、缓存、日志

网络

静态公网 IP

固定公网 IP,1Gbps+

控制所有 GPU 节点

操作系统

Ubuntu 22.04 LTS

同步官方建议

建议关闭 SELinux、防火墙


2. GPU 节点(工作节点)

项目

要求

说明

GPU

NVIDIA A10 / A5000 / T4 / A40 / L40S / H100 等

建议混合部署不同性能 GPU,提升任务匹配度

GPU 驱动

支持 CUDA,建议 ≥ 12.0

需与 GraVal 验证兼容

CPU

至少 16 核

支撑多 GPU 并发调度

内存

等于或高于 GPU VRAM 总和

例如:4×A40(48GB) → 192GB 系统内存

硬盘

1TB NVMe SSD(建议3TB以上)

存放模型缓存与中间镜像文件

网络

独立静态公网 IP (建议香港网络)

每个 GPU 节点均需公网访问

操作系统

Ubuntu 22.04 LTS

k3s 节点推荐系统

⚠️ 关键注意:
  • 内存必须 ≥ GPU 总显存,否则部署会失败(例如 48GB VRAM GPU → 系统需 48GB RAM)。
  • 允许 Kubernetes 动态分配端口(Ephemeral Range: 30000–32767)。
  • 推荐配置 SSD/NVMe 高速存储,以减少 HuggingFace 模型加载延迟。

三、存储建议

路径

用途

说明

/var/snap

HuggingFace 模型缓存、容器镜像

若主盘挂载路径不同(如 /home/ephemeral),需进行 bind mount 映射

/var/snap/postgres-data

Postgres 数据卷

若出现身份验证错误,可清空此目录后重新部署


四、网络要求

项目

要求

说明

节点互通

所有节点必须双向开放所有端口(TCP/UDP)

保证 k3s 集群通信、pod 调度

公网访问

GPU 节点需公网可达

Validator 与 Miner 交互使用

防火墙配置

建议关闭或仅允许白名单端口

若需限制,请至少开放以下端口:

  • Kubernetes Ephemeral Range

30000–32767

Chutes 部署随机端口

  • Miner API

默认 32000

CLI 与控制面通信

  • Grafana

默认 30080

监控面板访问

带宽

上下行 ≥ 100 Mbps(推荐 1 Gbps)

模型拉取与计算结果同步

延迟

内网 < 1ms;公网 < 50ms

提升 GraVal 与任务响应速度


五、节点数量建议

部署规模

控制节点数

GPU 节点数

说明

单节点测试

1

1

可用于验证部署流程

小规模集群

1

2–4

推荐最低运行标准

中等规模

1

8–16

支撑多任务并发计算

大规模矿工

1

32+

适合长期运行与稳定收益

六、网络拓扑示意(简化)


七、额外建议

  • 使用 ansible 自动部署脚本,避免手动配置错误;undefined
  • 使用 Grafana(默认端口 30080)监控节点运行状态;
  • 定期清理缓存模型(超过 500GB 或 30天未使用);
  • 建议部署时统一时间同步(Chrony/NTP);
  • 使用 SSD/NVMe 存储 HuggingFace 模型加速冷启动。
  • 如果是中国用户建议使用香港网络或VPS。

💻 支持的 GPU 型号与性能参数对照表

以下数据来自chutes-miner官方配置要求,涵盖 RTX、A 系列、L 系列、H 系列等主流 GPU,用于部署 Chutes Miner、Bittensor、AI 推理等高性能任务环境。

分类

GPU型号

显卡识别名

显存(GB)

架构

Tensor Cores

SM数

频率(Base/Boost MHz)

每SM线程数

ECC

SXM

成本($/h)

Graval(迭代/估算)

🟩 RTX 系列

RTX 3090

RTX 3090

24

8.6

328

82

1395 / 1695

1536

0.25

1 / 70

RTX 4090

RTX 4090

24

8.9

512

128

2235 / 2520

1536

0.40

2 / 65

RTX 5090

RTX 5090

32

12.0

680

170

2017 / 2407

1536

0.70

2 / 60

🟦 A 系列 (工作站/数据中心)

RTX A4000

RTX A4000

16

8.6

168

48

765 / 1560

1536

0.20

1 / 75

RTX 4000 Ada

RTX 4000 Ada

20

8.9

192

48

765 / 2175

1536

0.21

1 / 80

RTX A5000

RTX A5000

24

8.6

256

64

1170 / 1695

1536

0.25

1 / 92

RTX A6000

RTX A6000

48

8.6

336

84

1455 / 1860

1536

0.50

1 / 140

RTX 6000 Ada

RTX 6000 Ada

48

8.9

568

142

915 / 2505

1536

0.75

1 / 60

RTX PRO 6000

RTX PRO 6000

96

188

1590 / 2617

1024

1.80

1 / 103

🟨 L 系列 (低功耗服务器)

L4

L4

24

8.9

240

58

795 / 2040

1536

0.25

1 / 85

L40

L40

48

8.9

568

142

735 / 2490

1536

0.55

1 / 60

L40S

L40S

48

8.9

568

142

1065 / 2520

1536

0.85

1 / 60

🟥 A100 系列 (Ampere HPC)

A10

A10

24

8.6

208

72

1110 / 1710

1536

0.25

1 / 82

A40

A40

48

8.6

336

84

1305 / 1740

1536

0.50

1 / 142

A100 40GB PCIe

A100 PCIE 40GB

40

8.0

432

108

1065 / 1410

2048

1.10

4 / 60

A100 40GB SXM

A100 SXM 40GB

40

8.0

432

108

1065 / 1410

2048

1.15

4 / 60

A100 80GB PCIe

A100 80GB PCIe

80

8.0

432

108

1065 / 1410

2048

1.20

2 / 58

A100 80GB SXM

A100 SXM 80GB

80

8.0

432

108

1275 / 1410

2048

1.25

3 / 70

🟧 H 系列 (Hopper HPC)

H100 PCIe

H100 PCIe

80

9.0

456

114

1095 / 1755

2048

1.79

2 / 62

H100 NVL

H100 NVL

96

9.0

456

132

1590 / 1980

2048

2.25

3 / 75

H100 SXM

H100 HBM3

80

9.0

528

132

1590 / 1980

2048

2.35

5 / 70

H800 PCIe

H800 PCIe

80

9.0

456

114

1095 / 1755

2048

1.50

3 / 75

H20

H20

96

78

1590 / 1980

1024

0.60

1 / 300

H200

H200

140

9.0

528

132

1590 / 1980

2048

2.75

3 / 70

🟪 其他高端 GPU

MI300X

gfx942:sramecc

192

304

1600 / 2100

256

3.00

2 / 75

B200

B200

192

148

1590 / 1965

1024

4.50

2 / 75


💡 提示

  • ECC:错误校正码 (Error-Correcting Code),数据中心 GPU 常见特性。
  • SXM:NVIDIA 模块化 GPU 接口,通常提供更高的带宽与功耗上限。
  • Graval:内部性能估算参数,用于 AI 任务负载调度优化。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、总体架构
  • 二、硬件配置要求
    • 1. 控制节点(CPU 节点)
    • 2. GPU 节点(工作节点)
      • ⚠️ 关键注意:
  • 三、存储建议
  • 四、网络要求
  • 五、节点数量建议
  • 六、网络拓扑示意(简化)
  • 七、额外建议
  • 💻 支持的 GPU 型号与性能参数对照表
    • 💡 提示
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档