cuda - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签cuda

#cuda

CUDA编程：Parallel Reduction 并行归约与 Warp Shuffle 优化

Michael阿明 2天前2026-06-29 13:09:34

注意：本实验计时主要是 GPU kernel 计算时间，不包含完整 H2D/D2H 端到端时间。

6900

CUDA 编程：Occupancy、Block Size 与 Kernel 启动配置调优

Michael阿明 2天前2026-06-29 13:09:04

前面我们已经看到：TILE、blockDim、shared memory、bank conflict 都会影响性能。

9610

用Rust写GPU内核：CUDA-Oxide完整开发流程与性能优化指南

GPUS Lady 7天前2026-06-24 11:48:14

CUDA-Oxide是一套基于Rust语言开发的NVIDIA GPU并行计算开发工具链，区别于传统用C/C++编写CUDA显卡并行程序的方式，它可以让开发者直接...

15110

2026四大GPU计算生态横评：一文分清CUDA、ROCm、OpenCL、oneAPI

GPUS Lady 7天前2026-06-24 11:47:52

2026年，GPU通用计算领域已经形成非常清晰的竞争格局：三家芯片厂商自研的闭源/开源专属计算栈，外加一套行业通用开放标准，四类方案各有优劣，分别适配AI训练推...

22510

Windows 升级 Cuda 驱动版本图文步骤

代码简单说 15天前2026-06-16 17:25:07

- Driver Version 为 cuda 驱动版本；CUDA Version 为该驱动支持的最高 cuda toolkit 版本；cuda 驱动支持向后...

28810

里程碑更新！CUDA 13.3 补齐C++/Python生态，硬核赋能底层算力开发

GPUS Lady 30天前2026-06-01 14:58:01

NVIDIA 正式推出CUDA 13.3版本更新，本次升级聚焦底层GPU开发场景，面向深耕硬件底层开发的开发者带来多项核心功能迭代与体验革新，大幅优化底层并行计...

35010

CUDA编程：Shared Memory Bank Conflict 与 Padding 优化

Michael阿明 2026-05-292026-05-29 12:06:55

Global Memory 的 Memory Coalescing：让 warp 内线程尽量访问连续 Global 内存地址。

16910

记录一次 vLLM 服务卡在模型加载的排查过程

goodgood_live 2026-05-212026-05-21 20:05:28

这次记录的是一台云主机上的 GPU 测试机问题：模型权重放在 NAS，服务用 Docker 跑 vLLM。容器能启动，端口也能看到，但接口一直没有 ready，...

20310

读懂CUDA流：解锁GPU并行计算的核心关键

GPUS Lady 2026-05-202026-05-20 19:33:25

在入门GPU编程，尤其是基于CUDA的并行开发时，大多数开发者会重点关注核函数、显存拷贝、算力调度等核心内容，却常常忽略一个决定GPU计算效率的核心细节——CU...

29510

异步拷贝与 CUDA Stream（计算与数据传输重叠）

Michael阿明 2026-05-132026-05-13 17:36:05

在串行执行模式下，程序按照 H2D → Kernel → D2H 顺序运行，数据传输时 GPU 计算单元空闲，kernel 计算时 copy engine 又可...

31810

NVIDIA 开源 cuda‑oxide：纯 Rust 编写 CUDA 内核

GPUS Lady 2026-05-132026-05-13 17:01:24

NVIDIA终于可以公开过去半年潜心研发的重磅成果 —— 正式开源了cuda‑oxide。这是一款实验性定制 rustc 编译器后端，最大亮点是可以用纯 Ru...

25010

CUDA编程：Pinned Memory（固定页内存）如何提升 CPU↔GPU 数据传输效率

Michael阿明 2026-05-062026-05-06 13:49:18

前几课已经发现，很多 CUDA 程序并不是慢在 GPU kernel，而是慢在 H2D 和 D2H 数据搬运。因此，第四课的重点从“怎么写 kernel”转向...

26310

CUDA编程 - vector加法

Michael阿明 2026-05-062026-05-06 13:46:21

执行 !nvcc -O3 -std=c++17 -arch=sm_75 vector_add.cu -o vector_add 编译

16610

ZStack dGPU：让虚拟机里的 GPU 也能按需切分

ZStack云计算 2026-04-302026-04-30 19:44:26

在 Kubernetes 生态中，GPU 共享调度已趋于成熟——时间片轮转、显存隔离、按 Pod 粒度分配，各家方案百花齐放。

24010

BASIC语言实现CUDA Tile GPU编程

用户11764306 2026-04-302026-04-30 09:46:07

CUDA 13.1引入了CUDA Tile，这是一种基于分块的下一代GPU编程范式，旨在使细粒度并行更易用、更灵活。其关键优势之一是语言开放性：任何编程语言都可...

17610

告别英伟达依赖！DeepSeek-V4 国产化落地：百万上下文大模型首次全面拥抱国产算力——华为昇腾、天数智芯、寒武纪等主流国产AI芯片的全栈深度适配

jack.yang 2026-04-242026-04-24 15:51:08

2026年4月24日，当 DeepSeek-V4 预览版正式开源并宣布支持 1M Token 超长上下文时，全球AI社区的目光大多聚焦于其惊人的模型性能。然而...

5.3K60

NVIDIA CUDA Tile高性能矩阵乘法实现

用户11764306 2026-04-222026-04-22 17:27:11

本博文是一个系列文章的一部分，旨在帮助开发者学习NVIDIA CUDA Tile编程，以构建高性能GPU内核，并以矩阵乘法为核心示例。

23510

如何看待网传 DeepSeek V4 即将发布并提出「去CUDA化」？

鱼片粥来碗豆腐 2026-04-202026-04-20 11:55:46

我这两天也在看这个消息，说实话一开始看到“DeepSeek V4 + 去CUDA化”，我第一反应不是模型强不强，而是：这事如果是真的，影响其实比模型性能更大。

40120

#cuda

CUDA编程：Parallel Reduction 并行归约与 Warp Shuffle 优化

CUDA 编程：Occupancy、Block Size 与 Kernel 启动配置调优

用Rust写GPU内核：CUDA-Oxide完整开发流程与性能优化指南

2026四大GPU计算生态横评：一文分清CUDA、ROCm、OpenCL、oneAPI

Windows 升级 Cuda 驱动版本图文步骤

里程碑更新！CUDA 13.3 补齐C++/Python生态，硬核赋能底层算力开发

CUDA编程：Shared Memory Bank Conflict 与 Padding 优化

记录一次 vLLM 服务卡在模型加载的排查过程

读懂CUDA流：解锁GPU并行计算的核心关键

异步拷贝与 CUDA Stream（计算与数据传输重叠）

NVIDIA 开源 cuda‑oxide：纯 Rust 编写 CUDA 内核

CUDA编程：Pinned Memory（固定页内存）如何提升 CPU↔GPU 数据传输效率

CUDA编程 - vector加法

ZStack dGPU：让虚拟机里的 GPU 也能按需切分

BASIC语言实现CUDA Tile GPU编程

告别英伟达依赖！DeepSeek-V4 国产化落地：百万上下文大模型首次全面拥抱国产算力——华为昇腾、天数智芯、寒武纪等主流国产AI芯片的全栈深度适配

NVIDIA CUDA Tile高性能矩阵乘法实现

如何看待网传 DeepSeek V4 即将发布并提出「去CUDA化」？

热门专栏

素质云笔记

Deep learning进阶路

xingoo, 一个梦想做发明家的程序员

AutoML(自动机器学习)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐