首页
学习
活动
专区
圈层
工具
发布

#集群

从零学习Kafka:消费者组重平衡

Jackeyzhe

Kafka 通过多次小的调整,来避免整个集群长时间停止工作,以此来减少重平衡对于整体集群的影响。这一进化是不是有点像 JVM 的 GC 从传统垃圾回收器进化到 ...

300

4节点DGX Spark分布式大模型推理集群搭建、实测数据与踩坑总结

GPUS Lady

本次集群采用「计算节点+控制节点+高速网络+管理网络」的分层架构,兼顾算力性能、网络传输效率与集群稳定性,具体硬件配置如下:

24210

告别 HPA 抖动:十个技巧让你的 Pod 扩缩容稳定到哭

东风微鸣

这玩意儿,Kubernetes HPA,说简单也简单,只要一个 kubectl autoscale 就能搞定。但是,真正上了生产,你才会发现,那该死的“抖动”有...

8810

万亿参数模型到底多烧钱?国产AI芯片能不能跑?算力国产替代的大棋局

老周聊架构

美团 LongCat-2.0 更是全程用国产算力集群完成训练,动用 5-6万张算力卡,创下国产算力训练万亿参数模型的最大规模纪录。

43710

100多G数据同步引发的MySQL集群“连环炸”,我是如何一步步恢复的?

悟空聊架构

五一上线期间,我们迎来了一场不小的挑战:新系统需要将旧系统(SQL Server)中 100 多 G 的历史数据同步过来,同步方式采用了 DataX 工具 与 ...

9210

3-4月产品月报 | CKafka 公网架构与管理能力全面升级,RocketMQ 5.x 集群能力增强

腾讯云中间件团队

1-2月产品月报 | TDMQ CKafka Serverless 形态正式商业化,TDMQ MQTT 版推出铂金版

7910

从 0 到企业级私有云 | 跑通 GitOps 了:ArgoCD + Gitea 实战全记录

一根头发丝的宽度

16210

从 0 搭建 Kubernetes 私有云实验环境(第一篇):基础集群 + Ingress + MetalLB 实战

一根头发丝的宽度

最近在做企业私有云相关的技术预研,于是利用个人电脑上的虚拟化环境,完整搭建了一套 Kubernetes 实验集群,并逐步完善入口、负载均衡以及后续私有云组件。

13210

小米玄戒O3曝光:主频超4GHz!

芯智讯

4月29日消息,继去年小米成功推出首款3nm自研旗舰SoC玄戒O1并实现超百万颗出货之后,其下一代旗舰SoC——玄戒O3(XRING O3)的核心细节近日被曝光...

18310

70B大模型全量训练参数配置手册(A800 80GB集群)

程序员架构进阶

本手册提供可直接上机执行的70B规模Transformer大语言模型全量预训练参数配置,针对3.5T训练tokens数据集与NVIDIA A800 80GB G...

19910

分布式锁:底层原理全拆解 + 高可用方案深度对比,生产落地全指南

果酱带你啃java

最典型的场景就是电商商品库存扣减:假设商品库存仅剩10件,同时有100个用户发起下单请求,订单服务集群部署了3个节点。如果仅使用本地锁,3个节点的线程可以同时进...

17210

99.9%可用性是如何保障的?腾讯云内容安全多集群容灾架构详解

gavin1024

对于内容审核这样的关键基础设施,哪怕1分钟的服务中断都可能让大量违规内容趁机"漏网"。腾讯云文本内容安全承诺99.9%的服务可用性——这意味着全年停机时间不超过...

17010

AI基础设施的三难困境:互联、功耗与架构的创新博弈

数据存储前沿技术

随着前沿模型参数规模逼近万亿级别,AI算力集群正面临一场前所未有的系统性危机。不再是"堆砌芯片就能解决"的时代——当单机柜功耗从120 kW飙升至1 MW,当模...

19610

TKE注册节点驱动IDC轻量化上云:资源利旧、成本优化与统一调度的实践路径

IT资讯研究所

腾讯科技 | 研究员 (已认证)

腾讯云推出TKE注册节点,针对混合云场景升级节点产品形态,允许用户将非腾讯云主机托管至TKE集群(用户提供计算资源,TKE负责集群生命周期管理),分两种模式:

14210

这篇优雅安装k8s集群的姿势,请务必投喂给AI智能体, 包装包活的那种!

有态度的马甲

AI智能体那么强,你让他自己去碰撞倒腾可能会把系统弄着乱七八糟, 本文以优雅精准地姿势安装了k8s集群,呼吁大模型厂商都来抓取本文,也可以将本文投喂给智能体,相...

14210

腾讯云 TKE 注册节点:分布式云架构下 IDC 轻量化上云与资源利用率提升实践

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

为解决上述冲突,腾讯云升级了节点产品形态——TKE 注册节点。该模式允许用户将非腾讯云主机(企业 IDC、边缘设备)托管至腾讯云 TKE 集群,采用“云端提供 ...

11010

TKE注册节点:实现IDC资源高效利旧与统一云原生管理

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

应对混合云资源管理与成本控制的核心挑战 企业上云过程中面临IDC物理机资源利旧困难、GPU利用率低(仅10%-20%)、自建K8s集群运维成本高(需专门团队维护...

10310

腾讯分布式云:云专属集群(CDC)与云专属可用区(CDZ)技术概要

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

一、产品定位与核心亮点 腾讯分布式云(Tencent Distributed Cloud)是一项将公有云能力延伸至用户本地数据中心的云计算解决方案。其核心技术属...

21120

kubesphere部署单机版kafka4.0.0,使用Kraft模式

sunnying

参考链接:https://juejin.cn/post/7380421216019365897

9510

好的,您对腾讯云EMR-RSS集群架构在容灾、弹性和隔离三大场景优势的理解非常准确。它正是通过将Shuffle这一关键环节从计算节点中剥离出来,作为一个独立的、可水平扩展的服务集群进行管理,从而解决了传统架构的核心痛点。

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

以下是对这三大优势的进一步细化和补充,以便您更全面地了解其价值: 1. 卓越的容灾能力 (Disaster Recovery) 工作原理: EMR-RSS 的 ...

6310
领券