开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

调用` `cublasCreate(handle)`时运行pytorch geometric CUDA错误: CUBLAS_STATUS_NOT_INITIALIZED

调用cublasCreate(handle)时运行PyTorch Geometric CUDA错误: CUBLAS_STATUS_NOT_INITIALIZED 是由于CUDA库的初始化问题导致的错误。具体来说，CUBLAS_STATUS_NOT_INITIALIZED 表示CUBLAS库未正确初始化。

解决这个问题的方法是确保正确初始化CUDA和CUBLAS库。以下是一些可能的解决方案：

确保CUDA驱动程序正确安装并与您的GPU兼容。您可以通过运行nvidia-smi命令来检查CUDA驱动程序的安装情况。
确保您的PyTorch版本与您的CUDA版本兼容。您可以在PyTorch官方网站上查找PyTorch与CUDA版本的兼容性矩阵。
确保您的环境变量正确设置。您需要将CUDA库的路径添加到LD_LIBRARY_PATH环境变量中。例如，如果CUDA库位于/usr/local/cuda/lib64，您可以运行以下命令将其添加到环境变量中：
确保您的环境变量正确设置。您需要将CUDA库的路径添加到LD_LIBRARY_PATH环境变量中。例如，如果CUDA库位于/usr/local/cuda/lib64，您可以运行以下命令将其添加到环境变量中：
确保您的GPU驱动程序已正确安装并更新到最新版本。您可以从NVIDIA官方网站下载最新的GPU驱动程序。
如果您使用的是Anaconda环境，请确保您的环境中安装了正确版本的CUDA和PyTorch。您可以使用conda命令来安装特定版本的PyTorch和CUDA。

如果您仍然遇到问题，您可以尝试在PyTorch Geometric的GitHub存储库中寻求帮助，或者查阅PyTorch Geometric的文档以获取更多信息。

关于腾讯云的相关产品和产品介绍链接地址，由于要求不能提及具体品牌商，我无法直接给出链接。但是，腾讯云提供了一系列与云计算相关的产品和服务，包括云服务器、云数据库、云存储、人工智能等。您可以访问腾讯云官方网站，了解更多关于这些产品的信息和使用指南。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

讲解CUBLAS_STATUS_NOT_INITIALIZED解决

在使用CUDA加速库时，特别是在使用CUBLAS库进行GPU加速的线性代数运算时，有时我们可能会遇到CUBLAS_STATUS_NOT_INITIALIZED错误。这个错误通常表示CUBLAS库未正确初始化导致的问题。在本篇文章中，我们将深入探讨这个错误的原因，并给出解决方法。

01

windows cuda安装_虚拟机 cuda

到 https://developer.nvidia.com/cuda-downloads (旧：URL )去下载。在安装的时候一定要自定义安装，否则将会安装很多无用的东西。安装的选项，可以选择不更新驱动程序。

01

《PytorchConference2023 翻译系列》7-深入探索CUTLASS：如何充分利用Tensor Cores

嗨，我们要开始了。我叫马修·尼斯利。我是NVIDIA的深度学习compiler PM，今天我将介绍一些针对NVIDIA Tensorcores的使用方法。首先我要讲一下Cutlass。我会给你一些背景和概述，为什么你可能会使用它，一些最新和即将推出的功能，然后我会概述一下开放平台Triton。如果你刚刚参加了上一场讲座的话那你已经是懂哥了。

01

【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化

这篇文章来解析一下Megaton-LM涉及到的一个优化gradient_accumulation_fusion。这里fusion的意思是在gemm接口中会将当前的结果累加到先前计算的梯度上，所有这些都在一个操作中完成，可以避免多次访问global memory提升算子的带宽。下面解析一下这个优化的调度逻辑和cuda实现。

03

cuBLAS矩阵乘法性能分析（附代码示例）

矩阵乘法是神经网络中最基础、最重要的一个运算。在用CUDA实现矩阵乘法时，不需要我们手动写，cuBLAS库提供了现成的矩阵乘法算子，例如cublasGemmEx和cublasLtMatmul。其中后者是轻量级版本，API调用更灵活。例如对于整数乘法，cublasLtMatmul支持int8的输入输出，而cublasGemmEx只支持int8输入，int32输出。

05

解决CUDNN_STATUS_NOT_INITIALIZED

当在使用深度学习框架如TensorFlow、PyTorch等进行GPU加速计算时，有时你可能会遇到 CUDNN_STATUS_NOT_INITIALIZED 的错误。这个错误通常是由于一些基础设置或配置问题引起的，下面将介绍解决这个问题的几种方法。

03

【社区投稿】给 NdArray 装上 CUDA 的轮子

Ndarry是Rust编程语言中的一个高性能多维、多类型数组库。它提供了类似 numpy 的多种多维数组的算子。与 Python 相比 Rust 生态缺乏类似 CuPy, Jax 这样利用CUDA 进行加速的开源项目。虽然 Hugging Face 开源的 candle 可以使用 CUDA backend 但是 candle 项瞄准的是大模型的相关应用。本着自己造轮子是最好的学习方法，加上受到 Karpathy llm.c 项目的感召（这个项目是学习如何编写 CUDA kernel 的最好参考之一），我搞了一个 rlib 库给 NdArray 加上一个跑在 CUDA 上的矩阵乘法。ndarray-linalg 库提供的点乘其中一个实现（features）是依赖 openblas 的，对于低维的矩阵性能可以满足需求，但是机器学习，深度学习这些领域遇到的矩阵动辄上千维，openblas 里古老的优化到极致的 Fortran 代码还是敌不过通过并行性开挂的CUDA。

01

GraphDTA论文代码复现

一种名为 GraphDTA 的新模型，它将药物表示为图，并使用图神经网络来预测药物-靶点亲和力。我们的研究表明，图神经网络不仅能比非深度学习模型更好地预测药物与靶点的亲和力，而且还优于其他深度学习方法。我们的研究结果证实，深度学习模型适用于药物-靶点结合亲和力预测，而将药物表示为图可以带来进一步的改进。

01

NVIDIA希望有更多支持CUDA的编程语言

CUDA 并行计算平台可以使用 C++、Fortran 和 Python 进行编程，但该公司正在寻找其他人来运行其 GPU。

01

CRSLab: 可能是最适合你的对话推荐系统开源库

随着对话系统和推荐系统的快速发展，新方向——对话推荐系统（Conversational Recommender System，简称CRS）也开始了蓬勃发展，其关注于如何通过基于自然语言的对话来获得用户的意图和偏好，以实现精准推荐。但是现有的CRS相关数据集和模型在建模场景、最终目标和使用技术等方面存在一定差异，使得研究者们很难对这些模型进行统一的评测对比。对于科研新手来说，更是难以在这些模型和数据集中抉择并快速搭建CRS系统。

01

Python ONNX-GPU 使用记录

支持Linux和Windows平台CPU和GPU运算，对mac和手机终端也有相应支持。

02

成功解决 OSError: libcusparse.so.11: cannot open shared object file: No such file or directory

具体情况是：安装了 torch-geometric 和 torch-sparse（官网安装说明：PyG Documentation — pytorch_geometric documentation）后，导入 torch-sparse 时却报错。

02

【连载】OpenAITriton MLIR 第二章 Batch GEMM benchmark

通过前两章对于triton的简单介绍，相信大家已经能够通过从源码来安装triton，同时通过triton提供的language前端写出自己想要的一些计算密集型算子。这章开始，我们通过构建一套比较标准的batch gemm的benchmark，来看看目前这些主流的代码生成工具，高性能模板库，与厂商提供的vendor library的差距。因为只有明确了目前的差距，后期关于针对性的优化才能做到点上。这一章，我将使用一个batch的gemm作为例子，来看看triton目前对其的优化能力。选batch gemm的原因是因为目前的LLM中不可避免会有对应的attention操作，而attention操作中，核心的计算密集型算子就是batch的gemm，如果你能够对batch的gemm有一个很好的优化思路，那么在MLSys中大部分的算子优化类的工作对你来说将不会显得那么无从下手。

01

利用TensorRT实现神经网络提速(读取ONNX模型并运行)

在之前已经写到过一篇去介绍什么是TensorRT：利用TensorRT对深度学习进行加速，这篇文章中大概已经基本讨论了TensorRT究竟是个什么东西以及怎么使用它。

04

Windows 10 安装 mmcv 1.2.7 踩坑

It provides the following functionalities.

02

PyGOD 使用成功解决 Runtimeerror: No such operator torch_sparse::hetero_neighbor_sample 报错

按照教程一步步装好了 PyGOD，用到的命令如下所示（我的环境：PyTorch1.8.1 + CUDA11.1）：

02

DAY87：阅读Interoperability between Runtime and Driver APIs

An application can mix runtime API code with driver API code.

02

英伟达CUDA垄断地位难保：PyTorch不断拆塔，OpenAI已在偷家

詹士 Alex 发自凹非寺量子位 | 公众号 QbitAI 英伟达的软件护城河正在逐渐消失。随着PyTorch支持更多GPU厂商，再加上OpenAI的Triton搅局，英伟达手中的利器CUDA 逐渐锋芒不再。上述观点来自Semi Analysis首席分析师Dylan Patel，相关文章已引发一波业内关注。有网友看后评价：英伟达沦落到此种境地，只因为了眼前利益，放弃创新。 Pytorch的作者之一Sasank Chilamkurthy还补刀：当英伟达之前提出要收购Arm时，我就对潜在的垄断

03

6G显存玩转130亿参数大模型，仅需13行命令，RTX2060用户发来贺电

克雷西发自凹非寺量子位 | 公众号 QbitAI Meta的大语言模型LLaMA 13B，现在用2060就能跑了~ 羊驼家族的Alpaca和Vicuna也都能运行，显存最低只需要6G，简直是低VRAM用户的福音有木有。 GitHub上的搭建教程火了之后，网友们纷纷跑来问苹果M2是不是也能跑。这通操作的大致原理是利用最新版CUDA，可以将Transformer中任意数量的层放在GPU上运行。与此前llama.cpp项目完全运行在CPU相比，用GPU替代一半的CPU可以将效率提高将近2倍。而如果纯

02

NVIDIA Jetson ZOO 将提供ONNX runtime，以实现高性能推理

微软和NVIDIA已经合作为NVIDIA Jetson平台构建、验证和发布ONNX runtime Python包和Docker容器，现在可以在Jetson Zoo上使用。

02

TensorRT 开始

TensorRT 是 NVIDIA 自家的高性能推理库，其 Getting Started[1] 列出了各资料入口，如下：

03

Tensor Core

Tensor Core，也是Volta架构里面最重磅的特性。 Tensor Core实际上是一种矩阵乘累加的计算单元。矩阵乘累加计算在Deep Learning网络层算法中，比如卷积层、全连接层等是

08

讲解device:GPU:0 but available devices are [ /job:localhost/replica:0/task:0/dev

在深度学习领域中，GPU 是一种广泛用于加速模型训练和推断的强大工具。然而，有时我们可能会遇到一个错误信息：device:GPU:0 but available devices are [ /job:localhost/replica:0/task:0/device ]。这个错误表明代码尝试在 GPU 上运行，但却没有可用的 GPU 设备。本文将讲解此错误的原因及解决方法。

01

图机器学习 | PyG 安装配置记录

PyG（PyTorch Geometric）是构建在 PyTorch 之上的一个库，可以方便地编写和训练图神经网络（GNNs），用于与结构化数据相关的广泛应用。它包括针对图和其他不规则结构的各种深度学习的方法，也称为几何深度学习，来自各种发表的论文。此外，它还包括易于使用的小批量加载器，用于操作许多小的和单个的巨型图，多 GPU 支持，数据管道支持，通过 Quiver 的分布式图学习，大量的通用基准数据集（也可以基于简单的接口创建自己的），GraphGym 实验管理器，以及有用的转换，这些都用于学习任意图

01

实现TensorRT自定义插件(plugin)自由！

本系列为新TensorRT的第一篇，为什么叫新，因为之前已经写了两篇关于TensorRT的文章，是关于TensorRT-5.0版本的。好久没写关于TensorRT的文章了，所幸就以新来开头吧~

02

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

过去十年来，深度学习方法（例如卷积神经网络和递归神经网络）在许多领域取得了前所未有的成就，例如计算机视觉和语音识别。

03

新的PyTorch图神经网络库，比前辈快14倍：LeCun盛赞，GitHub 2000星

当科学家们发现，图神经网络 (GNN) 能搞定传统CNN处理不了的非欧数据，从前深度学习解不开的许多问题都找到了钥匙。

01

PyTorch 2.0正式版发布！一行代码提速2倍，100%向后兼容

---- 新智元报道编辑：Britta 桃子【新智元导读】PyTorch 2.0正式发布。 PyTorch 2.0正式版终于来了！去年12月，PyTorch基金会在PyTorch Conference 2022上发布了PyTorch 2.0的第一个预览版本。跟先前1.0版本相比，2.0有了颠覆式的变化。在PyTorch 2.0中，最大的改进是torch.compile。新的编译器比以前PyTorch 1.0中默认的「eager mode」所提供的即时生成代码的速度快得多，让PyTor

01

【知识】详细介绍 CUDA Samples 示例工程

CUDA 是“Compute Unified Device Architecture (计算统一设备架构)”的首字母缩写。CUDA 是一种用于并行计算的 NVIDIA 架构。使用图形处理器也可以提高 PC 的计算能力。

01

HugeCTR源码简单走读

这段时间除了开发算子之外，还在做一些推荐系统相关的工作，这期间主要看的是HugeCTR的代码，其性能优异，系统不复杂，代码结构较扁平，整体还是比较清晰。在这段时间看源码的过程中也算是对HugeCTR有一点了解，这篇博客主要梳理下HugeCTR代码的结构，以及他在MLPERF中做的一些优化。

04

支持Transformer全流程训练加速，最高加速3倍！字节跳动LightSeq上新

机器之心专栏机器之心编辑部 Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型，但由于硬件资源匮乏，很多高校实验室或者公司都无法训练很大的模型，而降低批处理大小等措施又会导致训练时间成倍增加。针对这一痛点，字节跳动推出了 LightSeq 训练加速引擎，对 Transformer 训练的整个计算过程进行了优化，最多可以实现 3 倍以上的加速。如今，NLP 和 CV 领域的大部分任务都将 Transformer 作为基础模型。而早在 2019 年 12 月，字节跳动就开源过

02

【踩坑】PyG报错Undefined symbol: xxxxxx

03

神器Pytorch（2）

1、首先先安装Ubuntu17.10 过程略只是建议在这个部分为了实践方便，请安装Desktop版本。 2、安装与配置Python、Pip 这种情况属于python3版本已经安装，安装的是3.6

04

Python CUDA 编程 - 1 - 基础概念

英伟达不同时代产品的芯片设计不同，每代产品背后有一个微架构代号，微架构均以著名的物理学家为名，以向先贤致敬。当前比较火热的架构有：

02

PyTorch 模型性能分析和优化 - 第 6 部分

为了方便我们的讨论，我们使用流行的 timm python 模块（版本 0.9.7）定义了一个简单的基于 Vision Transformer (ViT) 的分类模型。我们将模型的 patch_drop_rate 标志设置为 0.5，这会导致模型在每个训练步骤中随机丢弃一半的补丁。使用 torch.use_definistic_algorithms 函数和 cuBLAS 环境变量 CUBLAS_WORKSPACE_CONFIG 对训练脚本进行编程，以最大限度地减少不确定性。请参阅下面的代码块以获取完整的模型定义：

02

图神经网络06-基于Graph的传统机器学习方法

能使得一个特征方程有非零解存在。然而，考虑到特征向量中的所有项均为非负值，根据佩伦-弗罗贝尼乌斯定理，只有特征值最大时才能测量出想要的中心性。然后通过计算网络中的节点

02

深度学习|如何确定 CUDA+PyTorch 版本

对于深度学习初学者来说，配置深度学习的环境可能是一大难题，因此本文主要讲解CUDA; cuDNN; Pytorch 三者是什么，以及他们之间的依赖关系。

05

『带你学AI』测试深度学习框架GPU版本是否正确安装方法:TensorFlow，PyTorch，MXNet，PaddlePaddle

在深度学习框架GPU版本安装成功后，需要测试一下是否成功安装。GPU版本不像CPU版本的简单，CPU版本测试一般只需import一下测试是否能正确导入即可。GPU版本还需要测试CUDA或者GPU模块是否能正确调用起来。

02

OpenAITriton MLIR 第一章 Triton DSL

上一章的反响还不错，很多人都私信催更想看Triton的具体优化有哪些，为什么它能够得到比cuBLAS更好的性能。大家不用急，这也是我为什么要写这一系列文章的初衷，来带着大家从Triton的DSL前端一步一步到最终的machine code生成有一个清晰的理解，从而为大家展示编译在高性能计算中所起到的作用。先来看看openai对Triton所打的广告:

06

使用 PyTorch Geometric 在 Cora 数据集上训练图卷积网络GCN

图结构在现实世界中随处可见。道路、社交网络、分子结构都可以使用图来表示。图是我们拥有的最重要的数据结构之一。

07

torch.cuda

这个包增加了对CUDA张量类型的支持，它实现了与CPU张量相同的功能，但是它们利用gpu进行计算。它是惰性初始化的，所以您总是可以导入它，并使用is_available()来确定您的系统是否支持CUDA。CUDA semantics提供了更多关于使用CUDA的细节。

04

开源AI药物发现TorchDrug安装测试的那些坑

安装调试杂记，有点乱。有人或者AI查找解决方案的时候能够搜索到，能够对其有所帮助就好了。供参考。

02

创建pytorch环境_Udacity pytorch

搭建深度学习环境所需资料（md 我就安个神经网络的环境简直要了我的狗命）不过还是认识到很重要的一点，在书上找再多的资料都不如自己亲身实践一下还是要总结一下学了what 不然白捯饬了

02

超越AITemplate，打平TensorRT，SD全系列模型加速框架stable-fast隆重登场

来源丨https://zhuanlan.zhihu.com/p/669610362

01

『AI实践学』测试深度学习框架GPU版本是否正确安装方法:TensorFlow，PyTorch，MXNet，PaddlePaddle

在深度学习框架GPU版本安装成功后，需要测试一下是否成功安装。GPU版本不像CPU版本的简单，CPU版本测试一般只需import一下测试是否能正确导入即可。GPU版本还需要测试CUDA或者GPU模块是否能正确调用起来。

04

比DGL快14倍：PyTorch图神经网络库PyG上线了

项目链接：https://github.com/rusty1s/pytorch_geometric

04

PyTorch 1.0 中文文档：torch.cuda

这个包添加了对CUDA张量类型的支持，它实现了与CPU张量同样的功能，但是它使用GPU进计算。

01

「紫禁之巅」四大图神经网络架构

近年来，人们对深度学习方法在图数据上的扩展越来越感兴趣。在深度学习的成功推动下，研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想，定义和设计了用于处理图数据的神经网络结构。图神经网络的火热使得各大公司纷纷推出其针对图形结构数据的神经网络框架。下面分别介绍四大图神经网络框架。

02

在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练

先进的深度学习模型参数正以指数级速度增长:去年的GPT-2有大约7.5亿个参数，今年的GPT-3有1750亿个参数。虽然GPT是一个比较极端的例子但是各种SOTA模型正在推动越来越大的模型进入生产应用程序，这里的最大挑战是使用GPU卡在合理的时间内完成模型训练工作的能力。

02

论文复现前奏篇：漫漫长路之Caffe-C3D

0.导语1.Caffe源码编译1.0 NVIDIA与Anaconda31.1 GCC与G++降级1.2 cuda 9.01.3 cuDNN1.4 caffe-gpu源码编译1.5 python库安装1.6 编译1.7 环境变量1.8 导包测试2.caffe-cifar10测试2.1 获取数据集2.2 转换数据集格式2.3 训练及测试3.Caffe-C3D3.1 下载及配置3.2 安装库与编译4.C3D-cifar10测试4.1 获取数据集4.2 转换数据集格式4.3 训练及测试

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭