首页
学习
活动
专区
圈层
工具
发布

#gpu

大模型训练的硬件基础:GPU内存层级、分块与并行策略

deephub

AI 和 LLM 的进步通常归因于三个方面的持续改进:模型、数据、计算。三者互相关联。要跑起那些参数量庞大的模型,就需要足够的计算资源来支撑。Llama 3 最...

15510

NVIDIA 与 AMD GPU 指令集到底差在哪?看懂为什么代码移植很难保住性能

GPUS Lady

在指令集架构(ISA)层面,NVIDIA 和 AMD 几乎在所有核心设计上都分道扬镳。下面用通俗的语言,带你看懂两者底层最关键的差异,也明白为什么直接把 N 卡...

16610

ollama v0.17.5正式发布:新增Qwen3.5系列模型,全方位优化GPU/CPU分配、采样惩罚与内存管理机制详解

福大大架构师每日一题

2026年3月3日,ollama v0.17.5版本正式发布。这一版本可谓一次重要升级,核心亮点在于新增了Qwen3.5系列模型,并全面改进了采样算法、GPU与...

1.2K20

37:uv快速安装GPU PyTorch:速度、稳定性与最佳实践

安全风信子

作者: HOS(安全风信子) 日期: 2024-10-18 主要来源平台: GitHub 摘要: 本文深入分析uv包管理器在GPU PyTorch安装中的...

17010

35:【AI时代】Copilot/Claude/Cursor生成代码GPU跑不动怎么办?环境优化指南

安全风信子

作者: HOS(安全风信子) 日期: 2026-02-16 主要来源: GitHub 摘要: 本文深入分析2026年AI工具生成代码在GPU上运行的常见问...

13810

30:【uv + torch】2026最快安装GPU PyTorch & 避开conda坑

安全风信子

作者: HOS(安全风信子) 日期: 2026-01-01 主要来源平台: GitHub 摘要: 本文详细分析2026年使用uv和torch快速安装GPU...

69910

28:【AI工具】Copilot/Claude/Cursor生成代码 GPU跑不动(环境不匹配)

安全风信子

作者: HOS(安全风信子) 日期: 2026-01-01 主要来源平台: GitHub 摘要: 本文详细分析2026年AI工具(如Copilot、Cla...

15910

推开AI的门

白玉光

腾讯 | 高级工程师 (已认证)

当第一次体验到大模型带给你的惊喜时,你有没有想过,它到底是怎么思考的?你或许忙碌、疲惫,连思考“它是怎么思考的”都来不及去思考。可是在过去的很长时间里,模型参数...

23310

不跟英伟达走老路,这家GPU公司的技术架构藏着哪些关键解?

深度学习与Python

对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那...

16410

从技术走向实践:GPU云服务助力企业突破计算困局

星图云

在AI、大数据、云计算等技术的广泛应用的背景下,企业如何应对图像处理、科学计算、深度学习等场景的高负载计算挑战?当算力成为高频诉求,怎样才能摆脱技术约束,走向算...

15510

没电谈什么AI?8000 亿的隐形战场:当所有的人都在抢GPU,真正的赢家在挖矿和发电

AI 男神说

摘要:在AI的淘金热中,光有铲子(GPU)是不够的,你还需要水和电。美银证券(BofA)最新发布的74页深度报告揭示了一个被市场忽视的残酷现实:No Power...

30110

学界大佬吵架金句不断,智谱和MiniMax太优秀被点名,Agent竟然能写GPU内核了?!

深度学习与Python

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家,蒂姆·德特默斯对 AGI 给出的判断,他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI ...

14510

解析GPUDirect RDMA及类似技术

霞姐聊IT

GPU Direct RDMA是2009年由Nvidia和Mellanox共同研发的软硬件协同创新技术。

38010

NVFP4:打破GPU推理的内存墙,4位浮点时代来了

GPUS Lady

AI推理的内存挑战是多维度的。首先是模型权重本身的庞大体积。 以Llama 3.1 405B为例 ,使用FP16存储需要约810GB内存 ,即便是最新的H200...

42210

39. CPU/GPU 协同:vLLM的异构计算架构深度解析

安全风信子

作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析vLLM框架中CPU/GPU协同计算的核心机制,重点探...

26110

38. GPU 显存碎片问题如何解决:vLLM的碎片管理技术深度解析

安全风信子

作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析GPU显存碎片问题的成因、影响及解决方案,重点探讨vL...

22310

Ubuntu22.04多显卡安装paddle GPU

Dragon水魅

通过https://docs.nvidia.cn/cuda/cuda-toolkit-release-notes/index.html找到与之对应的 CUDA ...

10810

GPU矩阵分块|让大矩阵运算速度起飞

AI老马

GPU的片上共享内存有限,完整的大矩阵的运算会导致内存溢出,对矩阵分块应用并行计算是必备的优化方法,那如何对矩阵分块,分块后如何并行计算?了解以上问题可以加深对...

28810
领券