首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#cuda

cuda runtime/driver API解析

tankaro

9610

DeepSeek-R1自写CUDA内核跑分屠榜!斯坦福学霸狂飙GPU编程自动化挑战人类

新智元

近日,来自斯坦福和普林斯顿的研究者发现,DeepSeek-R1已经能生成自定义CUDA内核了,而且还在一众推理模型中,直接拿下了TOP 1!

5300

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

新智元

此前,该公司宣称开发出「AI CUDA工程师」,能将特定模型训练速度提升最高达100倍,引发行业关注。

6700

全球首个AI CUDA工程师来了!将PyTorch原生实现提速10-100倍

机器之心

我们的大脑只用了 20 瓦的能量就能完成复杂思考,而现代 AI 系统却需要成排的高功率 GPU 和惊人的电力消耗。这种差距如何缩小?

8410

RTX4060+ubuntu22.04.3+cuda12.4.1+Miniconda3+pytorch2.6 安装验证

tankaro

PyTorch是一个用于机器学习和深度学习的开源深度学习框架,由Facebook于2016年发布,其主要实现了自动微分功能,并引入动态计算图使模型建立更加灵活。...

8512

CV -- 基于GPU版显卡CUDA环境+Pycharm YOLOv8 检测

用户11404404

我这里是12.0,进入 CUDA 官网:https://developer.nvidia.com/cuda-toolkit-archive

13810

NVIDIA PTX指令集大揭秘:非CUDA替代品,而是底层控制语言

GPUS Lady

最近,DeepSeek采用了NVIDIA PTX指令集(Parallel Thread Execution ISA)来提升执行效能。然而,这一举动却导致了一些新...

1.4K30

英伟达股价下跌背后:DeepSeek绕过CUDA,PTX语言能否颠覆GPU生态?

朱卫军 AI Python

DeepSeek仅用557万美元训练出了R1,远低于OpenAI、Claude等同类模型,有人说DeepSeek绕过CUDA,使用更底层的PTX语言进行训练,这...

11710

为什么很多大模型训练都离不开CUDA?而DeepSeek却选择绕过CUDA直接使用PTX?

用户7353950

CUDA(Compute Unified Device Architecture)是由NVIDIA公司开发的一种通用并行计算平台和编程模型,旨在充分利用其GPU...

1.2K20

NVIDIA Blackwell RTX GPU与CUDA 12.8框架更新指南

GPUS Lady

随着NVIDIA Blackwell RTX GPU的发布,为了确保应用程序与这些新一代GPU的兼容性和最佳性能,应用开发者必须更新到最新的AI框架。NVIDI...

55710

安装 Cuda Toolkit

1AI

你可以前往 /usr/local 下,ls 查看是有有 cuda-xxx 的文件夹。

15310

该需要多少 NVIDIA CUDA Cores ?

Luga Lee

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源的核心基础设施-CUDA 核心(...

13010

CUDA版本查看指南:轻松掌握你的GPU性能

默 语

🌵 掌控GPU性能的第一步! 是否曾经疑惑过如何查看自己的CUDA版本?🤔 了解CUDA版本不仅对深度学习项目至关重要,还关系到代码的兼容性和性能优化。本指南将...

53910

【cuda 编程】gpu_burn 源码解析

Librant

gpu_burn 使用的是 cuda_driver_api 中的函数;没有调用 cuda_runtime_api 中的函数;在编译 .cu 文件需要用到 nvc...

30510

基于BERT的语义分析实现

Srlua

这个过程,可能会收到硬件条件的影响,推荐使用cuda进行训练。如果实在训练不了,可以直接调用附件中对应的训练好的模型来进行预测。

14810

RTX4060+ubuntu+cuda+cudnn

tankaro

cudnn-local-repo-ubuntu2204-9.2.1_1.0-1_amd64.deb

11900

英伟达CUDA高性能计算库详解

用户7353950

NVIDIA为CUDA生态系统提供了许多高性能库和框架,这些工具旨在简化并行计算的复杂度,并加速各种应用程序的开发。 cuBLAS (CUDA Basic L...

29310

英伟达CUDA 高级特性及使用示例详解

用户7353950

示例代码: cuda __device__ void recursiveKernel(int *data, int start, int end) { ...

16810

英伟达CUDA加速功能常见问题及内存管理策略

用户7353950

CUDA(Compute Unified Device Architecture)加速功能是NVIDIA为其GPU(图形处理器)设计的一套并行计算平台和编程模型...

28210

AssertionError: Torch not compiled with CUDA enabled ⚠️ | Torch未编译为支持CUDA的完美解决方法

默 语

大家好,我是默语。今天我们来讨论一个在深度学习框架PyTorch中常见的问题:AssertionError: Torch not compiled with C...

2.2K10
领券