首页
学习
活动
专区
圈层
工具
发布

#集群

面向GPU集群的无状态LLM推理架构演进

皮振伟

从FIO性能测试数据来看,GD2FS优势显著:在400G网卡的RDMA模式下,GPU与GD2FS集群的64M数据读取延迟仅1.6ms,1G数据读取延迟25ms;...

13610

2026年AI产业发展趋势预测

老_张

自研大模型意味着需要投入更多的算力和数据,至少在当前阶段,力大砖飞的大规模算力集群,是AI领域最核心也是最重要的投入。有了算力,才能不断训练和优化大模型,以及在...

18610

Worker越简单,系统越稳定:从单机到集群

jackcode

IP 被封不一定报错,返回空页面也算成功 稳定性依赖工程师经验,而不是系统感知 出问题后只能人工排查和补跑

10210

ICT设备端口链路与配置合规性巡检手册(多厂商命令版)

ICT系统集成阿祥

核心关注配置备份有效性、堆叠/集群一致性、无用配置清理,确保设备稳定性与可维护性。

7210

当 GPU 成为主角:解锁 AI 集群中那 85% 的闲置 CPU 算力

深度学习与Python

近年来,全球 AI 算力规模按接近指数级的幅度增长,GPU 已然是整个数据中心的绝对主角,而 CPU 一般被认为只是承担数据预处理、任务调度和通信协同的次要部分...

14010

Google Jupiter DCN揭秘:Apollo OCS光交换,重构传统CLOS迈向百万卡集群的范式革命

AGI小咖

本文深度剖析Google Jupiter DCN 在迈向 Exaflops(百亿亿次)算力时代的架构演进,揭示其如何利用 Apollo OCS 光交换技术实现从...

17710

如何保证在云上传输的消息绝对不丢失?

gavin1024

11110

一文吃透 Redis:主从复制 / 哨兵 / 集群模式 + 缓存 + 分布式锁

用户11719958

广义上的集群,是指多个机器,构成的分布式系统,就可以称为一个集群,所以前面的主从复制和哨兵模式也可以看作是一个集群。

40530

【融合创新】六成TOP10券商选择腾讯云大数据平台,加速适配AI场景

腾讯QQ大数据

在架构演进上,TBDS大数据支持经典集群与云原生集群并行运行,券商可根据自身节奏逐步升级,同时还可通过统一元数据实现不同架构集群之间的数据互访,在保证业务连续性...

13810

零运维Kafka解决方案:腾讯云CKafka如何破解自建集群痛点?

gavin1024

Kafka作为实时数据流的核心基础设施,其自建集群面临运维复杂、成本高昂、弹性不足等难题。本文深入分析企业使用Kafka的痛点,提出云原生托管服务的解决方案,并...

10710

使用 Patroni + HAProxy + Keepalived + ETCD 搭建高可用的 PostgreSQL 集群

小徐

单机 PG 面临服务器硬件故障、操作系统崩溃或网络中断,便会导致业务中断,无法连续性的提供服务。单机架构缺乏高可用机制,无法自动故障转移,恢复依赖人工干预,操作...

18610

用Kubebuilder开发Operator ,写一个会自己运维的监控应用!

希里安

希里安这里已经有现成的集群了,如果大家不想手动,直接在如上环境准备内容中安装kind后一键式创建,执行以下命令快速创建一个测试集群吧!

14010

Cerebras的晶圆级算力革命

光芯

在AI与高性能计算(HPC)向更深层次、更复杂场景演进的今天,算力与延迟的矛盾日益凸显。Cerebras Systems自2016年成立以来,始终专...

14010

用Kubernetes Operator,将你的专业经验自动标准化!

希里安

可能有些人实际工作中在k8s集群中已经用了很多Operator,但是可能不太了解具体是怎么开发,不要着急,今天希里安就先和大家一起研究学习下,看看Operato...

8910

【探索实战】从分治到统一:Kurator统一应用分发功能重塑我们的跨云应用交付体验

用户11964452

准备集群:我们首先准备了一个运行在私有云中的Kubernetes集群作为主集群,并准备了另外两个分别位于阿里云和腾讯云的集群作为待接入的成员集群。

12610

【贡献经历】从提交第一个PR到深度共建:我在Kurator社区的成长与收获

用户11964452

作为一名云原生技术爱好者,我始终坚信,真正的技术成长不仅源于对知识的学习,更来自于在真实项目中的实践与贡献。在众多的开源项目中,我选择了Kurator——一个旨...

9110

英伟达Run:ai没做到的,被华为开源方案实现了

深度学习与Python

尽管 Run:ai 在宣布被收购时曾公布开源计划,并承诺逐步开放对 NVIDIA GPU 之外芯片的支持,但截至目前,其集群在硬件兼容性上仍高度受限,仅支持 N...

12010

Valkey 9.0 引入多数据库集群、原子级槽位迁移,并带来大幅性能提升

深度学习与Python

编号数据库(numbered databases) 长期用于隔离数据、防止键冲突,但在 Redis 以及之前的 Valkey 版本中,集群模式只能使用单一数据库...

17710

CDH集群Hue监控指标active requests异常上升分析与优化

用户4128047

在大数据平台日常运维中,Hue的active requests监控指标异常上升是一个常见且关键的性能问题,它不仅影响用户体验,更可能波及整个集群的稳定性。

9110

Apache Flink集群架构:核心角色与协同机制

用户4128047

引言作为分布式流处理领域的标杆框架,Flink通过精细的职责划分实现高效数据处理。其集群架构包含JobManager、TaskManager、ResourceM...

9900
领券