
关注腾讯云开发者,一手技术干货提前解锁👇
如果你管过几百甚至上千台的 Linux 服务器,下面这套组合拳应该不陌生:
这套打法在几台、几十机器规模下还能凑合。但当你的机器到了成千上万台量级——每天 700 万条软件包风险告警,2000 起宕机事件,上百种软件版本,几十个 OS 发行版本。人是不够用的,工具链是断的,知识是装在老员工脑子里的。
OCManager 是 OpenCloudOS 团队为这件事给出的答案——一个把集群管理、整机监控、AI 智能运维整合在同一个 Web 控制台的一体化平台。今天我们正式把它开源了。
OCManager 是什么
OCManager 是 OpenCloudOS 智能管家,核心解决大规模 Linux 集群"看不全、管不住、查不出、修不快"的闭环问题。

如上图所示,OCManager 采用四层结构:被管主机运行 Agent 插件,通过 mTLS 通道上报数据;后端基于 tRPC-Go 微服务 + Footstone 基础服务(机器管理、权限校验等),存储依赖 MySQL / ClickHouse / Kafka / Redis;前端 Vue2 + TDesign 在 Web 控制台统一交付所有功能。
OCManager 平台包含四大核心特性:
五大核心模块解读
在平台一期能力建设中,我们开源了集群管理、整机监控、命令助手、OCAI(含智能诊断、智能问答助手) 五大核心模块。下面将逐一展开,方便你了解每个模块的应用场景及价值。
2.1 集群管理
集群管理作为 OCManager 的底座,由 Footstone 基础服务承担。它通过微服务架构提供统一的主机纳管、标签化分组、大批量导入导出功能,并支持 RBAC 权限校验与全生命周期的操作审计日志。面对百万级以上机器的规模化纳管,Footstone 可通过云原生机制进行多 Pod 水平扩展,并基于双向证书认证(mTLS)通道与被管端建立高并发长连接。
在控制台中,主机纳管、分组、标签、批量导出、批量命令执行等,全部在 Web 端完成。

示例图:主机管理控制台 — 支持多条件筛选与批量操作
(限于篇幅,更详细的分组、主机状态等功能暂未做截图展示)
2.2 整机监控
OCManager 监控模块专为系统级排障设计,解决传统监控“只能看整机虚高、无法定位具体硬件瓶颈”的被动局面。单机指标采集深度覆盖CPU、内存、磁盘 I/O、网络四大维度的 26 项核心参数:

示例图:整体监控看板——重点覆盖系统层级亚健康状态
2.3 命令助手
日常运维中充斥着大量高频、细碎且容错率极低的底层指令,批量执行不仅效率低,一旦出错结果不可预期。OCManager 命令助手将底层命令行操作重构为标准化、可复用的 Web 端作业模板,核心解决"一条命令推给多少台机器"的问题:


示例图:命令助手命令模版&支持参数化命令批量下发
2.4 OCAI
OCAI是本次开源中升级幅度最大的模块。在去年的功能开源基础上(OC 放出 DeepSeek 满血版运维工具,输入中文秒变运维代码的神器来了),我们我们新增了除 Shell 端以外的 Web 端交互,并将「通用问答助手」与「智能诊断」能力整合到同一入口,内置 OpenCloudOS 专属知识库,具备完整的推理与执行链路:



示例图:OCAI 对话界面 & 诊断报告— 含异常归因、分级修复建议、知识输出
如何部署OCManager
由于公众号篇幅受限,详细部署流程请见:https://gitee.com/OpenCloudOS/ocmanager/blob/master/docs/QUICKSTART.md
3.1 Docker 一键部署(官方推荐方式):
# clone 仓库
git clone https://gitee.com/OpenCloudOS/ocmanager.git
# 进到仓库根目录
cd ocmanager
# 复制配置文件
cp config/env.example config/.env
# 更改配置
备注:至少确认 SERVER_HOST。本地体验可直接用默认值,无需修改。如需其他配置,如OCAI-Service要使用的模型时,请注意配置,详见4)
vi config/.env
# 一键构建镜像并启动全部服务,脚本会自动构建前后端镜像,并拉起 MySQL / Redis / Kafka / ClickHouse 等所有依赖
bash scripts/deploy.sh完成后访问:
http://127.0.0.1:13070
默认账号/密码: admin / Admin123456@
# 登录后请立即修改密码备注:上述一键构建脚本,将按 infra → 数据通道 → manager 顺序拉起全栈(manager 业务侧的 sysdiagnose 通过 .env 里 TMS= 调用 tms/api,所以数据通道必须先于 manager 启动;制品上传也安排在两者之间,让 MD5 在 manager 启动前已经回写到 .env。
3.2 OCAI-Service部署(可选)
OCAI-Service 是控制台内嵌的 AI 助手(详见 docs/architecture/frontend-app.md · OpenCloudOS/OCManager - Gitee.com)。前端已默认集成;AI 后端由独立仓库 ocai-service 提供。若暂不部署 OCAI -Service,保持 ENABLE_OCAI_DEPLOY=false(默认)即可;也可在 Header.vue 中隐藏 <Chatbot/>。
一键启用(需先克隆 ocai-service 到 oc-manager 同级目录):
# config/.env
ENABLE_OCAI_DEPLOY=true
OCAI_JWT_SECRET=your-jwt-secret
OCAI_LLM_DEFAULT_API_KEY=sk-your-key
bash scripts/deploy.sh up # 自动拉起 ocai-service + nginx 反代3.3 被关节点上部署Agent
控制平面(infra + 数据通道 + manager)跑起来后只是 服务端——要让被管节点上报数据 / 接收命令,需要在每台目标主机上部署 Agent。Agent 与控制平面(具体是 tms/gateway)走 mTLS 长连接互信,所以必须先把 控制平面对外可达地址 签进 server 证书的 SAN。
详细部署流程见:
https://gitee.com/OpenCloudOS/ocmanager#%E6%96%B9%E5%BC%8F%E4%B8%89%E5%9C%A8%E8%A2%AB%E7%AE%A1%E8%8A%82%E7%82%B9%E4%B8%8A%E9%83%A8%E7%BD%B2-agent
如需更多部署方式,如本地开发部署,请见项目Quickstart 文档:
https://gitee.com/OpenCloudOS/ocmanager/blob/master/docs/QUICKSTART.md
Coming Soon · 二期开源规划
本次我们重点解决了"看到机器、监控机器、问机器、诊断机器"的闭环,二期将继续开源 OCManager 在深度运维场景上的能力:
同时还将扩展更多第三方主流开源 OS 的适配。
欢迎大家部署、体验 OCManager,同时也欢迎大家来 OCManager 主仓库和各分支项目仓库提PR/Issue,参与各类技术共建。
-End-