使用CUDA显示GPU优于CPU的最简单可能示例 - 腾讯云开发者社区

文章/答案/技术大牛

发布

4回答

使用CUDA显示GPU优于CPU的最简单示例

、、

我正在寻找最简洁的代码数量，这些代码可以为CPU (使用g++)和GPU (使用nvcc)编码，并且GPU的性能始终优于CPU。任何类型的算法都是可接受的。为了澄清:我确实在寻找两个简短的代码块，一个用于CPU (在g++中使用C++ )，另一个用于GPU (在nvcc中使用C++ )，其性能

浏览 2提问于2011-10-05得票数 28

回答已采纳

1回答

已设置CUDA_PROFILE=1和COMPUTE_PROFILE=1，但没有日志文件输出？

、、

尝试使用CUDA命令行分析器。运行最简单的CUDA示例。键入命令 export COMPUTE_PROFILE=1.GPU Processing time: 7.483000 (ms) Computing with Host CPU...Comparing GPU and Host CPU results...GPU

浏览 107提问于2021-10-19得票数 0

回答已采纳

2回答

在训练LSTM/RNN模型时，为什么我的GPU比CPU慢？

、、、

我的机器有以下规格：GPU: Titan X (Pascal)Nvidia驱动程序375.26cuDNN5.1SCRIPT NAME GPU CPUimdb_bidirectional_lstm.py 240sec 116

浏览 1提问于2017-01-31得票数 34

2回答

JIT编译器有可能在幕后利用GPU进行某些操作吗？

、、、

如果我的理解有任何错误，请随时纠正我。我的理解是天真的吗？

浏览 2提问于2010-06-30得票数 8

回答已采纳

3回答

如何使用软件实现在没有GPU的情况下运行CUDA？

、

我的笔记本电脑没有nVidia显卡，我想在CUDA上工作。该网站称，CUDA也可以在非cuda硬件上进行仿真。但当我尝试安装从他们的网站下载的CUDA驱动程序时，会出现一个错误：“nvidia安装程序无法找到任何与当前硬件兼容的驱动程序。安装程序现在将退出”。另外，当我试图在Visual 2008中运行SDK的示例代码时，我得到了一个找不到.obj文件的错误。

浏览 5提问于2009-11-18得票数 16

1回答

矢量加法基准

我编写了两个程序来添加长度为1024的向量，并运行1024来查看哪一个工作得更快。其中一个是以库达为基地的，另一个不是。我原以为cuda会做得更好，但事实并非如此。下面是两个程序。我需要更长的数组吗？cuda中的任何一个数组都在产生一个cudaError。timeStops[j] << endl;}#include "cuda

浏览 3提问于2021-04-16得票数 0

1回答

Python矩阵提供了numpy.dot()

、、、

在我熟悉Python (numba )中的CUDA期间，我实现了矩阵提供方法： numpy.random.random((N, N))

浏览 5提问于2015-04-29得票数 5

回答已采纳

1回答

如何创建makefile CUDA，使其在CPU中执行以测试CPU* FLOPs？*

、、、

我正在尝试计算GPU和CPU，我已经从获得了源代码################################################################################## EXECUTABLE := benchmark ##############################

浏览 0提问于2010-10-22得票数 0

回答已采纳

2回答

简单的CUBLAS矩阵乘法示例？

、、、

我正在寻找一个非常简单的CUBLAS矩阵乘法示例，它可以使用高性能GPU操作将M乘以N并将结果放在P中，用于以下代码： { N[i][j] = 500; }到目前为止，我发现使用CUBLAS进行任何类型的矩阵乘法的大多数代

浏览 0提问于2011-10-03得票数 14

回答已采纳

3回答

#ifdef / #ifndef和#endif

、

我有一段必须同时在CPU和CUDA上运行的代码-GPU和另外一段单独在CPU上运行的代码。#define ENABLE_CUDA是我用来在整个应用程序中启用CUDA代码的工具。下面是我的代码... # define ENABEL_CUDA is the preprocessor directive to turn ON/OFF CUDA code.CPU

浏览 0提问于2013-03-29得票数 0

1回答

是GEMM还是BLAS在Tensorflow，Theano，Py火炬中使用？

、、、、

我知道Caffe使用GEneral矩阵进行矩阵乘法，它是用于执行卷积运算的基本线性代数子程序库的一部分。其中卷积被转换为矩阵乘法运算。我已经提到了下面的条款。我想了解其他深层次的学习框架，如Theano，Tensorflow，Py火炬是如何执行卷积操作的。他们是否在后端使用类似的库。可能会有一些关于这个主题的文章。如果有人能指给我看或者能用答案解释的话。PS:我在datascience.stackexchange.com上发布了同样的

浏览 0提问于2018-08-13得票数 8

回答已采纳

3回答

运行tensorflow-gpu设备时几乎没有空闲的1080 ti内存分配

、

我正在测试一个最近购买的ASUS 1080ti (11 GB)卡，通过一个简单的测试python (matmul.py)程序从。虚拟环境(venv)设置如下: ubuntu=16.04，tensorflow-gpu=1.5.0，python=3.6.6，CUDA==9.0，Cudnn==7.2.1。发生CUDA_ERROR_OUT_OF_MEMORY。最奇怪的是: totalMemory: 10.91GiB freeMemory: 61.44M

浏览 0提问于2018-10-01得票数 1

回答已采纳

1回答

windows 64上的Theano安装

我是Python和Theano库的新手。我想把提亚诺安装在windows 7-64上。我有一个显示适配器: Intel(R) HD Graphics 3000，与NVIDA不兼容。我的问题：任何帮助！谢谢

浏览 1提问于2015-11-24得票数 0

回答已采纳

1回答

为什么OpenCV GPU模板匹配比CPU慢得多？

、、、

我已经编译了最新可用的OpenCV 4.5.4版本，以便与最新的CUDA 11.5一起使用，并在一台GeForce RTX2070超级显卡(7.5ARCH)的Windows 10计算机上运行快速数学功能运行时结果： CPU性能优于GPU (在300x300源映像中匹配70x70针形图像)最大的瓶颈是需要在模板匹配CPU之前将文件上传到GPU，而GPU需要大约0.42秒，这两种方法最

浏览 6提问于2021-12-15得票数 2

1回答

python中的用户定义函数

、

可以在GPU中执行用户定义的函数吗？我试过用电筒库在库达执行。我将举一个我尝试过的例子。return y y=mymodule3(x) y=mymodule1(y)我的要求是在mymodule4中运行GPU.May，我将每个变量赋值给cuda。

浏览 1提问于2022-08-12得票数 -3

1回答

Blas GEMM启动失败:此错误是什么意思？

、

我在执行一个简单的Tensorflow模型时遇到了问题，这个模型昨天工作得很好。我怀疑，整个问题都与给定的错误有关在控制台上写着，我的印象是，这可能与基于此的</em

浏览 2提问于2017-09-05得票数 1

1回答

有办法在一个cuFFTW程序中同时使用FFTW和C++吗？

、、、、

我正在编写一段使用FFTW3库的代码，并希望使用CUDA将其移植到GPU。最简单的方法是使用cuFFTW兼容性库，但是，正如文档所述，它的目的是用它的GPU等价物完全替换它的CPU版本的FFTW。在添加cufftw.h头后，它替换了所有的CPU功能，代码在GPU上运行。但是，在我的</

浏览 0提问于2018-09-26得票数 0

回答已采纳

1回答

十亿元阵列的GPU缩减

、、

我试图使用GPU执行约简，也就是说，从数组的所有元素中找到一个最大值。有一个来自Nvidia 的教程，假设幻灯片7是最简单的方法我唯一的问题是我的数组太大了！它可以达到40亿个元素。从幻灯片7中的示例代码来看，需要在块共享内存和全局内存之间来回复制，并且在我目前的理解中无法避免使用全局内存来存储所有元素。此存储器超过2GB的显卡内存。是否有任何

浏览 6提问于2016-11-29得票数 0

回答已采纳

1回答

我怎样才能加载128位数据最快和兼容的图形处理器(CUDA* )和中央处理器( C++)？*

、、

我需要加载每个线程在CUDA C++ 128位数据。在这种情况下，为了获得最大的性能和与CPU代码的兼容性，使用它会更好？下面的例子访问数据会有相同的性能吗？1:使用两个：unsigned __int64 src2 = arr[threadIdx.x/2 + 1];struct T_src { unsigned __int64 s

浏览 4提问于2012-08-21得票数 0

回答已采纳

2回答

NUMBA CUDA比并行CPU慢，甚至对于巨型矩阵也是如此

、、、、

关于numba使用cuda的在线示例只有几个，我发现它们都比并行CPU方法慢。Vectorise与CUDA目标和模板更糟糕，所以我尝试创建一个自定义内核。你在任何地方都能找到的博客是。这个例子是一个简单的模糊过滤器：import timeimport timeit importnumba.cuda

浏览 1提问于2020-07-23得票数 0

回答已采纳

点击加载更多

使用CUDA显示GPU优于CPU的最简单示例

已设置CUDA_PROFILE=1和COMPUTE_PROFILE=1，但没有日志文件输出？

在训练LSTM/RNN模型时，为什么我的GPU比CPU慢？

JIT编译器有可能在幕后利用GPU进行某些操作吗？

如何使用软件实现在没有GPU的情况下运行CUDA？

矢量加法基准

Python矩阵提供了numpy.dot()

如何创建makefile CUDA，使其在CPU中执行以测试CPU* FLOPs？*

简单的CUBLAS矩阵乘法示例？

#ifdef / #ifndef和#endif

是GEMM还是BLAS在Tensorflow，Theano，Py火炬中使用？

运行tensorflow-gpu设备时几乎没有空闲的1080 ti内存分配

windows 64上的Theano安装

为什么OpenCV GPU模板匹配比CPU慢得多？

python中的用户定义函数

Blas GEMM启动失败:此错误是什么意思？

有办法在一个cuFFTW程序中同时使用FFTW和C++吗？

十亿元阵列的GPU缩减

我怎样才能加载128位数据最快和兼容的图形处理器(CUDA* )和中央处理器( C++)？*

NUMBA CUDA比并行CPU慢，甚至对于巨型矩阵也是如此

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐