首页
学习
活动
专区
圈层
工具
发布

#gpu

从技术走向实践:GPU云服务助力企业突破计算困局

星图云

在AI、大数据、云计算等技术的广泛应用的背景下,企业如何应对图像处理、科学计算、深度学习等场景的高负载计算挑战?当算力成为高频诉求,怎样才能摆脱技术约束,走向算...

2200

没电谈什么AI?8000 亿的隐形战场:当所有的人都在抢GPU,真正的赢家在挖矿和发电

AIprince

摘要:在AI的淘金热中,光有铲子(GPU)是不够的,你还需要水和电。美银证券(BofA)最新发布的74页深度报告揭示了一个被市场忽视的残酷现实:No Power...

9510

学界大佬吵架金句不断,智谱和MiniMax太优秀被点名,Agent竟然能写GPU内核了?!

深度学习与Python

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家,蒂姆·德特默斯对 AGI 给出的判断,他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI ...

3810

解析GPUDirect RDMA及类似技术

霞姐聊IT

GPU Direct RDMA是2009年由Nvidia和Mellanox共同研发的软硬件协同创新技术。

7610

NVFP4:打破GPU推理的内存墙,4位浮点时代来了

GPUS Lady

AI推理的内存挑战是多维度的。首先是模型权重本身的庞大体积。 以Llama 3.1 405B为例 ,使用FP16存储需要约810GB内存 ,即便是最新的H200...

14510

39. CPU/GPU 协同:vLLM的异构计算架构深度解析

安全风信子

作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析vLLM框架中CPU/GPU协同计算的核心机制,重点探...

10510

38. GPU 显存碎片问题如何解决:vLLM的碎片管理技术深度解析

安全风信子

作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析GPU显存碎片问题的成因、影响及解决方案,重点探讨vL...

9910

Ubuntu22.04多显卡安装paddle GPU

Dragon水魅

通过https://docs.nvidia.cn/cuda/cuda-toolkit-release-notes/index.html找到与之对应的 CUDA ...

7210

GPU矩阵分块|让大矩阵运算速度起飞

AI老马

GPU的片上共享内存有限,完整的大矩阵的运算会导致内存溢出,对矩阵分块应用并行计算是必备的优化方法,那如何对矩阵分块,分块后如何并行计算?了解以上问题可以加深对...

18610

显卡基础知识|英伟达算力开挂的GPU!

AI老马

AI模型训练和推理对算力的要求各有特点,如何在具体的场景下综合权衡选择显卡算力,怎样才能达到性能、能耗和成本的最佳平衡。本文围绕这个问题,介绍下关于显卡的基础知...

67710

vLLM推理框架|用"内存分页术"榨干GPU,让KV缓存不再"爆仓"!

AI老马

高效的批处理策略,使得更多的请求可以组成batch并行处理,但是batch组的请求数仍受到GPU内存的限制,如何的突破内存瓶颈,最大化batch中请求数量,是提...

24210

大模型训练—Nvidia GPU 互联技术全景图

AI老马

原因:GPU无法直接访问存储设备(如NVMe SSD),必须通过CPU和系统内存中转。

23010

“Gemini 3不错,但我们也快发了”:Mark Chen评价谷歌大模型,讲清OpenAI如何给300个项目排GPU优先级

深度学习与Python

12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈...

11810

Mosaic:面向超长序列的多GPU注意力分片方案

deephub

Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分...

13710

JAX性能优化实战:7个变换让TPU/GPU吃满算力

deephub

JAX跑得快的技巧其实很简单:通过组合变换让XLA能看到大块连续的计算,比如说批处理、融合、分片,让每一步在单设备或多设备同步时都像一个干净的kernel。

8410

利用 cloudstudio 免费 GPU 时长部署 DeepSeek-OCR

Lcry

就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。

18910

Nat. Methods | GPU 加速的 MMseqs2 同源搜索

MindDance

随着蛋白质数据库规模的快速增长,对更快、更敏感的同源性搜索工具的需求愈发迫切。研究人员开发了 GPU 加速版 MMseqs2 (MMseqs2-GPU),在单一...

12210

面向GPU集群的无状态LLM推理架构演进

皮振伟

在AI大模型浪潮席卷各行各业的当下,大语言模型(LLM)推理的性能、扩展性与资源利用率,已成为企业落地过程中的核心痛点。回顾互联网后端架构的演进历程,我们不难发...

22310

nvMolKit:GPU加速的 RDKit 核心函数集

DrugAI

过去 15-20 年间,传统的化学信息学工具逐渐难以跟上现代分子发现的需求。造成这一趋势的原因主要有三点:

10520
领券