首页
学习
活动
专区
圈层
工具
发布

#gpu

面向GPU集群的无状态LLM推理架构演进

皮振伟

在AI大模型浪潮席卷各行各业的当下,大语言模型(LLM)推理的性能、扩展性与资源利用率,已成为企业落地过程中的核心痛点。回顾互联网后端架构的演进历程,我们不难发...

7610

nvMolKit:GPU加速的 RDKit 核心函数集

DrugAI

过去 15-20 年间,传统的化学信息学工具逐渐难以跟上现代分子发现的需求。造成这一趋势的原因主要有三点:

5520

nvMolKit:GPU加速的 RDKit 核心函数集

DrugAI

过去 15-20 年间,传统的化学信息学工具逐渐难以跟上现代分子发现的需求。造成这一趋势的原因主要有三点:

5520

【踩坑】避坑!算力租赁平台的可能套路

小锋学长生活大爆炸

由于博主需要训练模型,因此找了一些算力租赁平台,很多平台的单卡资源都没有了,但发现“xx云”还有余量,因此直接买了。买完才发现上当了!原来还可以这样套路。

6300

深度拆解沐曦MXMACA软件栈功能,算力自主+生态兼容,破解国产GPU落地难题

机器之心

近日,刚刚 IPO 的国产 GPU 公司沐曦股份,完成了自上市后的首个重大技术发布。

11110

瞄准AI、图形顶端战场:摩尔线程上演国产GPU硬核实力路演

机器之心

这就是摩尔线程最新 AI 计算卡 S5000,单卡跑满血 DeepSeek 大模型的成绩。

12510

算力稀缺时代,如何把 GPU 用“满”

深度学习与Python

过去几年里,GPU 几乎成为所有技术团队的“硬通货”。高端 GPU 不仅价格贵,而且很难购买到。以 A100 为代表的数据中心级 GPU 在市场上长期维持在 1...

12710

当 GPU 成为主角:解锁 AI 集群中那 85% 的闲置 CPU 算力

深度学习与Python

近年来,全球 AI 算力规模按接近指数级的幅度增长,GPU 已然是整个数据中心的绝对主角,而 CPU 一般被认为只是承担数据预处理、任务调度和通信协同的次要部分...

13410

Scikit-Learn 1.8.0 引入 Array API,支持 PyTorch 与 CuPy 张量的原生 GPU 加速

deephub

Scikit-Learn 1.8.0 更新引入了实验性的 Array API 支持。这意味着 CuPy 数组或 PyTorch 张量现在可以直接在 Scikit...

9310

200亿美元“反向收购雇佣”?老黄天价应对谷歌TPU压力

CoovallyAIHub

平安夜的硅谷并不平静。当所有人都在享受节日气氛时,英伟达悄然放出重磅消息:以200亿美元现金与AI芯片初创公司Groq达成交易。

8010

GPU算力爆发下的I/O瓶颈,是怎么一回事

ICT系统集成阿祥

I/O指数据在计算核心与外部设备间的传输过程。传统I/O架构由CPU主导,但随着计算重心转向GPU,存储I/O性能与GPU算力的差距日益凸显。GPU计算性能每代...

18610

将 GPU 级性能带到企业级 Java:CUDA 集成实用指南

程序猿DD

然而,一旦涉及高性能计算(HPC)或数据密集型作业,Java 的托管运行时与垃圾回收开销会在满足现代应用的低延迟与高吞吐需求上带来挑战,尤其是那些涉及实时分析、...

9510

Meta AI网络架构深潜:30倍跨园区长尾延迟下,NCCLX如何支撑Llama 4 十万卡GPU集群线性扩展?

AGI小咖

本文作为Meta AI网络架构系列第五篇,深度剖析Meta为支撑Llama 4训练构建的10万卡级分布式AI集群:物理层依托 ATSW汇聚层、76个正交平面与...

32311

ESUN诞生记:OCP 2025下,博通、英伟达与吉瓦(GW)级GPU买家的“新阳谋”

AGI小咖

OCP 2025惊天变局!Oracle、OpenAI、Meta和Anthropic等吉瓦级(GW)数据中心建设如火如荼,吉瓦(GW)级GPU买家“新阳谋”——...

19910

媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?

AGI小咖

当AI模型的参数量跨越万亿和训练集群的规模迈向数万GPU时,连接它们的网络便从幕后英雄变成了性能的“主战场”。传统网络方案在如此巨大的“数据洪流”面前遇到了前所...

16610

Nvidia SCADA:GPU如何驾驭数据,突破内存墙?

数据存储前沿技术

ChatGPT的横空出世,不仅引爆了全球AI热潮,更悄然改变了数据中心的计算支出结构。曾几何时,CPU主导着绝大部分投入,但如今,GPU等加速器的支出正以前所未...

18210

GPU存储I/O瓶颈:三星AiSiO如何破局?

数据存储前沿技术

在AI大模型和高性能计算(HPC)的浪潮下,GPU作为算力核心,其惊人的计算能力正面临一个日益凸显的瓶颈:数据I/O效率低下。您的GPU是否也常常处于“饥饿”状...

12100

打破GPU存储孤岛,构建开放数据高速公路

数据存储前沿技术

随着大模型训练和推理任务的日益复杂,一个严峻的挑战浮出水面:我们是否被“孤岛化”的存储架构所束缚,限制了GPU的真正潜能? 传统的GPU服务器本地NVMe存储虽...

7110

NVIDIA cuTile这么好,你的GPU支持么?

GPUS Lady

2025年,NVIDIA推出CUDA 13.1版本,其中最引人注目的创新是NVIDIA CUDA Tile(简称Cutile)。这一技术标志着自2006年CUD...

25510

刚刚,国产GPU赛道又跑出一个 2700 亿估值独角兽!“中国AMD”沐曦股份完成 IPO,开盘大涨超 500%

深度学习与Python

继摩尔线程 2025 年 12 月 5 日登陆科创板,并在首日经历股价暴涨之后,国产 GPU 行业迎来第二位重量级选手——沐曦集成电路(上海)股份有限公司(以下...

14910
领券