首页
学习
活动
专区
圈层
工具
发布

#集群

Agent Skills 开发实战:轻松搞定 10 个 Milvus 集群的运维管理

运维有术

上周三晚上十点,我正准备下班,监控群里突然弹出一条告警:生产环境的 Milvus 集群查询延迟飙升到 5 秒以上。

900

机器学习平台技术栈之 Training Operator

宅蓝三木

随着深度学习模型参数量的爆炸式增长(从千万级别到千亿级别的 LLM),单机单卡的训练模式早已成为历史。现代机器学习(ML)基础设施的核心诉求是如何高效、稳定、可...

1700

海光DCU加速大模型在金融场景的实际部署能力

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

第一章:金融机构智能化转型面临算力瓶颈 金融行业AI应用已进入复杂场景阶段(智能运维、风控评级、反洗钱等),需处理16k+超长文本输入 国产芯片实际落地...

3000

Kubernetes GPU 调度完全指南:从入门到生产实践

云技术以及云存储

在 AI 大模型训练、推理场景爆发式增长的今天,如何在 Kubernetes 集群中高效调度 GPU 资源,已成为云原生领域的关键技术。本文系统梳理 K8s G...

10410

零基础OceanBase数据库入门(2):查看集群基本信息

俊才

作为一款原生分布式数据库,OceanBase的集群是所有操作和运维的核心载体。不管是开发调试还是日常运维,先掌握「如何查看集群基本信息」,能让我们快速了解集群的...

4110

Nature | VirtualFlow:开源超大规模虚拟筛选平台的设计、实现与应用

DrugIntel

本文的核心贡献是将上述逻辑工程化:设计并实现了一个可在商用云计算或 HPC 集群上运行、完美线性扩展的开源虚拟筛选平台——VirtualFlow,并在世界上规模...

12110

存算分离,性能跃升:盖雅工场TCHouse-D 3.0升级实现查询效率再提升60%

腾讯QQ大数据

随着业务规模的快速扩张,盖雅工场面临不断增长的数据规模与越发复杂的实时分析需求等业务挑战。线上运行着的腾讯云 TCHouse-D 2.0 数仓集群面临了极大的压...

6610

GPU 黑科技 DSMEM: 让线程块 “片上直达”,告别显存绕路

GPUS Lady

集群共享,内存 “合而为一”——多个线程块可以组成一个 “集群”,H100 最多支持 16 个线程块抱团,它们的共享内存可以合并使用,总容量可达数 MB,大幅提...

6810

好物周刊#137:数智法度

村雨遥

一个企业级 Kubernetes 多集群管理平台,以项目为视角实现多租户、多集群的资源隔离与统一管理。平台采用项目 → 集群配额 → 工作空间三级架构,提供完整...

10010

气象编程 | dask建立本地分布式集群

气象学家

  如果是拥有大型机的研究生,可不看本章节,本章主要针对没有大型机,但是有多台闲置低性能电脑的人员。   在我之前的工作中,发现我的电脑不能胜任计算数据的工作,...

5910

GLM-5推出即适配,摩尔线程S5000 FP8算力突破 1000 TFlops

ExASIC

2026年1月,智源研究院基于S5000千卡集群,完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证。结果显示,与英伟达H100集群的训练结...

26910

清华大学发布 OpenClaw 自我研究报告 2026

民工哥

这是一份@清新研究团队发布的《OpenClaw自我研究报告2026》,系统解剖了 OpenClaw(代号“龙虾”)从本地小工具到数字超级生命体的完整进化路径。

15310

Kubernetes v1.35 Timbernetes(世界树) 来了!垂直扩容、KYAML 优化、废弃 cgroup v1 和 ipvs,更稳定、更安全、更易运维

民工哥

允许外部控制器(如MultiKueue)同步Job状态,实现多集群调度的清晰委托。简化跨集群任务管理,提升大规模批处理效率。

15910

50.77 亿收购 H3C 的 10% 股份!

民工哥

紫光国际 50.77 亿收购 H3C 的 10% 股份!战略布局新华三的又一举措!

15110

Kubernetes v1.35 即将改变一切!资源利用率暴涨 50%,故障修复提速 70%,向自动化、可观测性全方位进化

民工哥

根据官方版本发布计划,v1.35 目前处于开发阶段,最新版本为 v1.34.1(发布于2025年9月9日),v1.35 预计将在未来发布。关键时间节点如下:

20910

第一大服务器厂商收入暴涨!!!

民工哥

报告期内,浪潮信息中标沈阳化工大学高性能大模型训练推理服务器集群采购项目,中标金额为273.00万元,体现了公司在服务器领域的市场竞争力。

15010

传统方式已过时!Kubernetes 集群管理新利器来了!

民工哥

如果是资源耗尽,那么我们可以通过云平台或集群自动扩缩容(Cluster Autoscaler)增加节点。

18310

刚刚!DeepSeek 最新发文!V3/R1 训练细节全公开

民工哥

昨天下午,DeepSeek 就紧急跟进,发布了《关于AI生成合成内容标识的公告》。

40210
领券