gpu - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签gpu

#gpu

大模型训练的硬件基础：GPU内存层级、分块与并行策略

deephub 3天前2026-03-09 12:13:39

AI 和 LLM 的进步通常归因于三个方面的持续改进：模型、数据、计算。三者互相关联。要跑起那些参数量庞大的模型，就需要足够的计算资源来支撑。Llama 3 最...

15510

NVIDIA 与 AMD GPU 指令集到底差在哪？看懂为什么代码移植很难保住性能

GPUS Lady 7天前2026-03-05 12:53:29

在指令集架构（ISA）层面，NVIDIA 和 AMD 几乎在所有核心设计上都分道扬镳。下面用通俗的语言，带你看懂两者底层最关键的差异，也明白为什么直接把 N 卡...

16610

ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPU/CPU分配、采样惩罚与内存管理机制详解

福大大架构师每日一题 8天前2026-03-04 19:59:49

2026年3月3日，ollama v0.17.5版本正式发布。这一版本可谓一次重要升级，核心亮点在于新增了Qwen3.5系列模型，并全面改进了采样算法、GPU与...

1.2K20

37：uv快速安装GPU PyTorch：速度、稳定性与最佳实践

安全风信子 10天前2026-03-02 08:39:53

作者： HOS(安全风信子) 日期： 2024-10-18 主要来源平台： GitHub 摘要：本文深入分析uv包管理器在GPU PyTorch安装中的...

17010

35：【AI时代】Copilot/Claude/Cursor生成代码GPU跑不动怎么办？环境优化指南

安全风信子 11天前2026-03-01 08:48:07

作者： HOS(安全风信子) 日期： 2026-02-16 主要来源： GitHub 摘要：本文深入分析2026年AI工具生成代码在GPU上运行的常见问...

13810

30：【uv + torch】2026最快安装GPU PyTorch & 避开conda坑

安全风信子 17天前2026-02-23 09:51:56

作者： HOS(安全风信子) 日期： 2026-01-01 主要来源平台： GitHub 摘要：本文详细分析2026年使用uv和torch快速安装GPU...

69910

28：【AI工具】Copilot/Claude/Cursor生成代码 GPU跑不动（环境不匹配）

安全风信子 17天前2026-02-23 09:49:03

作者： HOS(安全风信子) 日期： 2026-01-01 主要来源平台： GitHub 摘要：本文详细分析2026年AI工具（如Copilot、Cla...

15910

推开AI的门

白玉光

腾讯｜高级工程师 (已认证)

2026-02-092026-02-09 18:02:33

当第一次体验到大模型带给你的惊喜时，你有没有想过，它到底是怎么思考的？你或许忙碌、疲惫，连思考“它是怎么思考的”都来不及去思考。可是在过去的很长时间里，模型参数...

23310

不跟英伟达走老路，这家GPU公司的技术架构藏着哪些关键解？

深度学习与Python 2026-01-302026-01-30 14:58:11

对于国产 GPU 行业来说，没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下，国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点，在敲钟的那...

16410

从技术走向实践：GPU云服务助力企业突破计算困局

星图云 2026-01-292026-01-29 17:14:27

在AI、大数据、云计算等技术的广泛应用的背景下，企业如何应对图像处理、科学计算、深度学习等场景的高负载计算挑战？当算力成为高频诉求，怎样才能摆脱技术约束，走向算...

15510

没电谈什么AI？8000 亿的隐形战场：当所有的人都在抢GPU，真正的赢家在挖矿和发电

AI 男神说 2026-01-282026-01-28 15:46:06

摘要：在AI的淘金热中，光有铲子（GPU）是不够的，你还需要水和电。美银证券（BofA）最新发布的74页深度报告揭示了一个被市场忽视的残酷现实：No Power...

30110

学界大佬吵架金句不断，智谱和MiniMax太优秀被点名，Agent竟然能写GPU内核了？！

深度学习与Python 2026-01-282026-01-28 11:52:22

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家，蒂姆·德特默斯对 AGI 给出的判断，他用一篇文章《通用人工智能为何不会成为现实》直接把 AGI ...

14510

解析GPUDirect RDMA及类似技术

霞姐聊IT 2026-01-272026-01-27 15:23:58

GPU Direct RDMA是2009年由Nvidia和Mellanox共同研发的软硬件协同创新技术。

38010

NVFP4：打破GPU推理的内存墙，4位浮点时代来了

GPUS Lady 2026-01-272026-01-27 10:21:15

AI推理的内存挑战是多维度的。首先是模型权重本身的庞大体积。以Llama 3.1 405B为例，使用FP16存储需要约810GB内存，即便是最新的H200...

42210

39. CPU/GPU 协同：vLLM的异构计算架构深度解析

安全风信子 2026-01-272026-01-27 09:38:21

作者：HOS(安全风信子) 日期：2026-01-19 来源平台：GitHub 摘要：本文深入剖析vLLM框架中CPU/GPU协同计算的核心机制，重点探...

26110

38. GPU 显存碎片问题如何解决：vLLM的碎片管理技术深度解析

安全风信子 2026-01-262026-01-26 09:22:11

作者：HOS(安全风信子) 日期：2026-01-19 来源平台：GitHub 摘要：本文深入剖析GPU显存碎片问题的成因、影响及解决方案，重点探讨vL...

22310

Ubuntu22.04多显卡安装paddle GPU

Dragon水魅 2026-01-232026-01-23 20:26:49

通过https://docs.nvidia.cn/cuda/cuda-toolkit-release-notes/index.html找到与之对应的 CUDA ...

10810

GPU矩阵分块｜让大矩阵运算速度起飞

AI老马 2026-01-132026-01-13 15:11:20

GPU的片上共享内存有限，完整的大矩阵的运算会导致内存溢出，对矩阵分块应用并行计算是必备的优化方法，那如何对矩阵分块，分块后如何并行计算？了解以上问题可以加深对...

28810

#gpu

大模型训练的硬件基础：GPU内存层级、分块与并行策略

NVIDIA 与 AMD GPU 指令集到底差在哪？看懂为什么代码移植很难保住性能

ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPU/CPU分配、采样惩罚与内存管理机制详解

37：uv快速安装GPU PyTorch：速度、稳定性与最佳实践

35：【AI时代】Copilot/Claude/Cursor生成代码GPU跑不动怎么办？环境优化指南

30：【uv + torch】2026最快安装GPU PyTorch & 避开conda坑

28：【AI工具】Copilot/Claude/Cursor生成代码 GPU跑不动（环境不匹配）

推开AI的门

不跟英伟达走老路，这家GPU公司的技术架构藏着哪些关键解？

从技术走向实践：GPU云服务助力企业突破计算困局

没电谈什么AI？8000 亿的隐形战场：当所有的人都在抢GPU，真正的赢家在挖矿和发电

学界大佬吵架金句不断，智谱和MiniMax太优秀被点名，Agent竟然能写GPU内核了？！

解析GPUDirect RDMA及类似技术

NVFP4：打破GPU推理的内存墙，4位浮点时代来了

39. CPU/GPU 协同：vLLM的异构计算架构深度解析

38. GPU 显存碎片问题如何解决：vLLM的碎片管理技术深度解析

Ubuntu22.04多显卡安装paddle GPU

GPU矩阵分块｜让大矩阵运算速度起飞

热门专栏

腾讯云服务器团队的专栏

饶文津的专栏

腾讯技术工程官方号的专栏

AI科技大本营的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐