腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
4
回答
使用
CUDA
显示
GPU
优于
CPU
的
最
简单
示例
、
、
我正在寻找
最
简洁
的
代码数量,这些代码可以为
CPU
(
使用
g++)和
GPU
(
使用
nvcc)编码,并且
GPU
的
性能始终
优于
CPU
。任何类型
的
算法都是可接受
的
。为了澄清:我确实在寻找两个简短
的
代码块,一个用于
CPU
(在g++中
使用
C++ ),另一个用于
GPU
(在nvcc中
使用
C++ ),其性能
浏览 2
提问于2011-10-05
得票数 28
回答已采纳
1
回答
已设置
CUDA
_PROFILE=1和COMPUTE_PROFILE=1,但没有日志文件输出?
、
、
尝试
使用
CUDA
命令行分析器。运行
最
简单
的
CUDA
示例
。键入命令 export COMPUTE_PROFILE=1.
GPU
Processing time: 7.483000 (ms) Computing with Host
CPU
...Comparing
GPU
and Host
CPU
results...
GPU
浏览 107
提问于2021-10-19
得票数 0
回答已采纳
2
回答
在训练LSTM/RNN模型时,为什么我
的
GPU
比
CPU
慢?
、
、
、
我
的
机器有以下规格:
GPU
: Titan X (Pascal)Nvidia驱动程序375.26cuDNN5.1SCRIPT NAME
GPU
CPU
imdb_bidirectional_lstm.py 240sec 116
浏览 1
提问于2017-01-31
得票数 34
2
回答
JIT编译器有
可能
在幕后利用
GPU
进行某些操作吗?
、
、
、
如果我
的
理解有任何错误,请随时纠正我。我
的
理解是天真的吗?
浏览 2
提问于2010-06-30
得票数 8
回答已采纳
3
回答
如何
使用
软件实现在没有
GPU
的
情况下运行
CUDA
?
、
我
的
笔记本电脑没有nVidia显卡,我想在
CUDA
上工作。该网站称,
CUDA
也可以在非
cuda
硬件上进行仿真。但当我尝试安装从他们
的
网站下载
的
CUDA
驱动程序时,会出现一个错误:“nvidia安装程序无法找到任何与当前硬件兼容
的
驱动程序。安装程序现在将退出”。另外,当我试图在Visual 2008中运行SDK
的
示例
代码时,我得到了一个找不到.obj文件
的
错误。
浏览 5
提问于2009-11-18
得票数 16
1
回答
矢量加法基准
我编写了两个程序来添加长度为1024
的
向量,并运行1024来查看哪一个工作得更快。其中一个是以库达为基地
的
,另一个不是。我原以为
cuda
会做得更好,但事实并非如此。下面是两个程序。我需要更长
的
数组吗?
cuda
中
的
任何一个数组都在产生一个cudaError。timeStops[j] << endl;}#include "
cuda
浏览 3
提问于2021-04-16
得票数 0
1
回答
Python矩阵提供了numpy.dot()
、
、
、
在我熟悉Python (numba )中
的
CUDA
期间,我实现了矩阵提供方法: numpy.random.random((N, N))
浏览 5
提问于2015-04-29
得票数 5
回答已采纳
1
回答
如何创建makefile
CUDA
,使其在
CPU
中执行以测试
CPU
FLOPs?
、
、
、
我正在尝试计算
GPU
和
CPU
,我已经从获得了源代码################################################################################## EXECUTABLE := benchmark ##############################
浏览 0
提问于2010-10-22
得票数 0
回答已采纳
2
回答
简单
的
CUBLAS矩阵乘法
示例
?
、
、
、
我正在寻找一个非常
简单
的
CUBLAS矩阵乘法
示例
,它可以
使用
高性能
GPU
操作将M乘以N并将结果放在P中,用于以下代码: { N[i][j] = 500; }到目前为止,我发现
使用
CUBLAS进行任何类型
的
矩阵乘法
的
大多数代
浏览 0
提问于2011-10-03
得票数 14
回答已采纳
3
回答
#ifdef / #ifndef和#endif
、
我有一段必须同时在
CPU
和
CUDA
上运行
的
代码-
GPU
和另外一段单独在
CPU
上运行
的
代码。#define ENABLE_
CUDA
是我用来在整个应用程序中启用
CUDA
代码
的
工具。下面是我
的
代码... # define ENABEL_
CUDA
is the preprocessor directive to turn ON/OFF
CUDA
code.
CPU
浏览 0
提问于2013-03-29
得票数 0
1
回答
是GEMM还是BLAS在Tensorflow,Theano,Py火炬中
使用
?
、
、
、
、
我知道Caffe
使用
GEneral矩阵进行矩阵乘法,它是用于执行卷积运算
的
基本线性代数子程序库
的
一部分。其中卷积被转换为矩阵乘法运算。我已经提到了下面的条款。我想了解其他深层次
的
学习框架,如Theano,Tensorflow,Py火炬是如何执行卷积操作
的
。他们是否在后端
使用
类似的库。
可能
会有一些关于这个主题
的
文章。如果有人能指给我看或者能用答案解释的话。PS:我在datascience.stackexchange.com上发布了同样
的
浏览 0
提问于2018-08-13
得票数 8
回答已采纳
3
回答
运行tensorflow-
gpu
设备时几乎没有空闲
的
1080 ti内存分配
、
我正在测试一个最近购买
的
ASUS 1080ti (11 GB)卡,通过一个
简单
的
测试python (matmul.py)程序从。虚拟环境(venv)设置如下: ubuntu=16.04,tensorflow-
gpu
=1.5.0,python=3.6.6,
CUDA
==9.0,Cudnn==7.2.1。发生
CUDA
_ERROR_OUT_OF_MEMORY。
最
奇怪
的
是: totalMemory: 10.91GiB freeMemory: 61.44M
浏览 0
提问于2018-10-01
得票数 1
回答已采纳
1
回答
windows 64上
的
Theano安装
我是Python和Theano库
的
新手。我想把提亚诺安装在windows 7-64上。我有一个
显示
适配器: Intel(R) HD Graphics 3000,与NVIDA不兼容。我
的
问题:任何帮助! 谢谢
浏览 1
提问于2015-11-24
得票数 0
回答已采纳
1
回答
为什么OpenCV
GPU
模板匹配比
CPU
慢得多?
、
、
、
我已经编译了最新可用
的
OpenCV 4.5.4版本,以便与最新
的
CUDA
11.5一起
使用
,并在一台GeForce RTX2070超级显卡(7.5ARCH)
的
Windows 10计算机上运行快速数学功能运行时结果:
CPU
性能
优于
GPU
(在300x300源映像中匹配70x70针形图像)最大
的
瓶颈是需要在模板匹配
CPU
之前将文件上传到
GPU
,而
GPU
需要大约0.42秒,这两种方法最
浏览 6
提问于2021-12-15
得票数 2
1
回答
python中
的
用户定义函数
、
可以在
GPU
中执行用户定义
的
函数吗?我试过用电筒库在库达执行。我将举一个我尝试过
的
例子。return y y=mymodule3(x) y=mymodule1(y)我
的
要求是在mymodule4中运行
GPU
.May,我将每个变量赋值给
cuda
。
浏览 1
提问于2022-08-12
得票数 -3
1
回答
Blas GEMM启动失败:此错误是什么意思?
、
我在执行一个
简单
的
Tensorflow模型时遇到了问题,这个模型昨天工作得很好。我怀疑,整个问题都与给定
的
错误有关在控制台上写着,我
的
印象是,这
可能
与基于此
的</em
浏览 2
提问于2017-09-05
得票数 1
1
回答
有办法在一个cuFFTW程序中同时
使用
FFTW和C++吗?
、
、
、
、
我正在编写一段
使用
FFTW3库
的
代码,并希望
使用
CUDA
将其移植到
GPU
。
最
简单
的
方法是
使用
cuFFTW兼容性库,但是,正如文档所述,它
的
目的是用它
的
GPU
等价物完全替换它
的
CPU
版本
的
FFTW。在添加cufftw.h头后,它替换了所有的
CPU
功能,代码在
GPU
上运行。但是,在我
的</
浏览 0
提问于2018-09-26
得票数 0
回答已采纳
1
回答
十亿元阵列
的
GPU
缩减
、
、
我试图
使用
GPU
执行约简,也就是说,从数组
的
所有元素中找到一个最大值。有一个来自Nvidia
的
教程,假设幻灯片7是
最
简单
的
方法 我唯一
的
问题是我
的
数组太大了!它可以达到40亿个元素。从幻灯片7中
的
示例
代码来看,需要在块共享内存和全局内存之间来回复制,并且在我目前
的
理解中无法避免
使用
全局内存来存储所有元素。此存储器超过2GB
的
显卡内存。是否有任何
浏览 6
提问于2016-11-29
得票数 0
回答已采纳
1
回答
我怎样才能加载128位数据最快和兼容
的
图形处理器(
CUDA
)和中央处理器( C++)?
、
、
我需要加载每个线程在
CUDA
C++ 128位数据。在这种情况下,为了获得最大
的
性能和与
CPU
代码
的
兼容性,
使用
它会更好?下面的例子访问数据会有相同
的
性能吗?1:
使用
两个:unsigned __int64 src2 = arr[threadIdx.x/2 + 1];struct T_src { unsigned __int64 s
浏览 4
提问于2012-08-21
得票数 0
回答已采纳
2
回答
NUMBA
CUDA
比并行
CPU
慢,甚至对于巨型矩阵也是如此
、
、
、
、
关于numba
使用
cuda
的
在线
示例
只有几个,我发现它们都比并行
CPU
方法慢。Vectorise与
CUDA
目标和模板更糟糕,所以我尝试创建一个自定义内核。你在任何地方都能找到
的
博客是。这个例子是一个
简单
的
模糊过滤器:import timeimport timeit importnumba.
cuda
浏览 1
提问于2020-07-23
得票数 0
回答已采纳
点击加载更多
相关
资讯
如何在Julia编程中实现GPU加速
通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析
使用Python在GPU上实现两张图像的像素循环赋值
从头开始进行CUDA编程:线程间协作的常见技术
超原版速度110倍,针对PyTorch的CPU到GPU张量迁移工具开源
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券