首页
学习
活动
专区
圈层
工具
发布

#cuda

异步拷贝与 CUDA Stream(计算与数据传输重叠)

Michael阿明

在串行执行模式下,程序按照 H2D → Kernel → D2H 顺序运行,数据传输时 GPU 计算单元空闲,kernel 计算时 copy engine 又可...

17610

NVIDIA 开源 cuda‑oxide:纯 Rust 编写 CUDA 内核

GPUS Lady

NVIDIA终于可以公开过去半年 潜心研发的重磅成果 —— 正式开源了cuda‑oxide。这是一款实验性定制 rustc 编译器后端,最大亮点是可以用纯 Ru...

11210

CUDA编程:Pinned Memory(固定页内存)如何提升 CPU↔GPU 数据传输效率

Michael阿明

前几课已经发现,很多 CUDA 程序并不是慢在 GPU kernel,而是慢在 H2D 和 D2H 数据搬运。 因此,第四课的重点从“怎么写 kernel”转向...

13210

CUDA编程 - vector加法

Michael阿明

执行 !nvcc -O3 -std=c++17 -arch=sm_75 vector_add.cu -o vector_add 编译

9610

ZStack dGPU:让虚拟机里的 GPU 也能按需切分

ZStack云计算

在 Kubernetes 生态中,GPU 共享调度已趋于成熟——时间片轮转、显存隔离、按 Pod 粒度分配,各家方案百花齐放。

10010

BASIC语言实现CUDA Tile GPU编程

用户11764306

CUDA 13.1引入了CUDA Tile,这是一种基于分块的下一代GPU编程范式,旨在使细粒度并行更易用、更灵活。其关键优势之一是语言开放性:任何编程语言都可...

12010

告别英伟达依赖!DeepSeek-V4 国产化落地:百万上下文大模型首次全面拥抱国产算力——华为昇腾、天数智芯、寒武纪等主流国产AI芯片的全栈深度适配

jack.yang

2026年4月24日,当 DeepSeek-V4 预览版正式开源并宣布支持 1M Token 超长上下文 时,全球AI社区的目光大多聚焦于其惊人的模型性能。然而...

3.5K60

NVIDIA CUDA Tile高性能矩阵乘法实现

用户11764306

本博文是一个系列文章的一部分,旨在帮助开发者学习NVIDIA CUDA Tile编程,以构建高性能GPU内核,并以矩阵乘法为核心示例。

14710

如何看待网传 DeepSeek V4 即将发布并提出「去CUDA化」?

鱼片粥来碗豆腐

我这两天也在看这个消息,说实话一开始看到“DeepSeek V4 + 去CUDA化”,我第一反应不是模型强不强,而是:这事如果是真的,影响其实比模型性能更大。

33420

GPU数据共享踩坑?CUDA Fences:解决“隐形过期数据”的底层神器

GPUS Lady

在GPU并行计算的世界里,有一个“隐形陷阱”常常困扰着开发者——当两个SM(流式多处理器)需要共享数据时,明明代码逻辑无误,却会出现诡异的计算错误。这背后的“元...

15510

你每天用的AI,都藏着一个叫CUDA的“幕后推手”

GPUS Lady

还有没有人刷到CUDA相关内容,却始终不知道它到底是什么?今天我们就跳出复杂的技术术语,用最通俗的方式,聊聊这个撑起整个AI时代的“隐形功臣”,顺便分享一个你大...

20710

一次看懂:CUDA 最新技术与未来 3 年路线图

GPUS Lady

本文基于 NVIDIA 官方 CUDA 主题演讲,系统梳理当前 GPU 计算的核心变革、CUDA 最新技术突破,以及面向数据中心与多节点场景的长期规划。

47210

0基础CUDA炼丹、增加断点保存,从零开始训练自己的AI大模型 87owo/EasyGPT Python CUDA

王忘杰

数据集下载: https://github.com/87owo/EasyGPT/releases

13310

NVIDIA CCCL中控制浮点确定性的技术

用户11764306

作者:Nader Al Awar 和 Srinivas Yadav Singanaboina

10410

NVIDIA CUDA 13.2 发布:性能跃升与生态完善的双重突破

GPUS Lady

2026 年 3 月 5 日,NVIDIA 正式推出 CUDA Toolkit 13.2 版本,作为全球领先的并行计算平台与编程模型,此次更新在核心架构优化、计...

69910

CUDA 13.2:增强Tile支持与Python新特性

用户11764306

cuda.core 0.6 引入了用于 GPU 监控和管理的 NVML 绑定(cuda.bindings.nvml),以及用于胖二进制文件操作的新 nvFatb...

38000

多进程CUDA初始化的问题 Cannot re-initialize CUDA in forked subprocess

Michael阿明

上面这个例子会报错,主进程触发了 CUDA 初始化,fork 出来的子进程中创建 tensor 的时候报错了

18410

使用NVIDIA CUDA Tile编写高性能矩阵乘法

用户11764306

本文是帮助开发者学习NVIDIA CUDA Tile编程以构建高性能GPU核函数系列文章的一部分,以矩阵乘法作为核心示例。

28010
领券