注意:本实验计时主要是 GPU kernel 计算时间,不包含完整 H2D/D2H 端到端时间。
前面我们已经看到:TILE、blockDim、shared memory、bank conflict 都会影响性能。
CUDA-Oxide是一套基于Rust语言开发的NVIDIA GPU并行计算开发工具链,区别于传统用C/C++编写CUDA显卡并行程序的方式,它可以让开发者直接...
2026年,GPU通用计算领域已经形成非常清晰的竞争格局:三家芯片厂商自研的闭源/开源专属计算栈,外加一套行业通用开放标准,四类方案各有优劣,分别适配AI训练推...
- Driver Version 为 cuda 驱动版本;CUDA Version 为该驱动支持的最高 cuda toolkit 版本;cuda 驱动支持向后...
NVIDIA 正式推出CUDA 13.3版本更新,本次升级聚焦底层GPU开发场景,面向深耕硬件底层开发的开发者带来多项核心功能迭代与体验革新,大幅优化底层并行计...
Global Memory 的 Memory Coalescing:让 warp 内线程尽量访问连续 Global 内存地址。
这次记录的是一台云主机上的 GPU 测试机问题:模型权重放在 NAS,服务用 Docker 跑 vLLM。容器能启动,端口也能看到,但接口一直没有 ready,...
在入门GPU编程,尤其是基于CUDA的并行开发时,大多数开发者会重点关注核函数、显存拷贝、算力调度等核心内容,却常常忽略一个决定GPU计算效率的核心细节——CU...
在串行执行模式下,程序按照 H2D → Kernel → D2H 顺序运行,数据传输时 GPU 计算单元空闲,kernel 计算时 copy engine 又可...
NVIDIA终于可以公开过去半年 潜心研发的重磅成果 —— 正式开源了cuda‑oxide。这是一款实验性定制 rustc 编译器后端,最大亮点是可以用纯 Ru...
前几课已经发现,很多 CUDA 程序并不是慢在 GPU kernel,而是慢在 H2D 和 D2H 数据搬运。 因此,第四课的重点从“怎么写 kernel”转向...
执行 !nvcc -O3 -std=c++17 -arch=sm_75 vector_add.cu -o vector_add 编译
在 Kubernetes 生态中,GPU 共享调度已趋于成熟——时间片轮转、显存隔离、按 Pod 粒度分配,各家方案百花齐放。
CUDA 13.1引入了CUDA Tile,这是一种基于分块的下一代GPU编程范式,旨在使细粒度并行更易用、更灵活。其关键优势之一是语言开放性:任何编程语言都可...
2026年4月24日,当 DeepSeek-V4 预览版正式开源并宣布支持 1M Token 超长上下文 时,全球AI社区的目光大多聚焦于其惊人的模型性能。然而...
本博文是一个系列文章的一部分,旨在帮助开发者学习NVIDIA CUDA Tile编程,以构建高性能GPU内核,并以矩阵乘法为核心示例。
我这两天也在看这个消息,说实话一开始看到“DeepSeek V4 + 去CUDA化”,我第一反应不是模型强不强,而是:这事如果是真的,影响其实比模型性能更大。