腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
CUDA/推力双指针问题(指针向量)
、
当我试图访问从
主机
加载了Object* (指针向量)类型的thrust::device_vector的CUDA内核上的双指针时,我遇到了一个问题。
浏览 0
提问于2011-06-06
得票数 1
1
回答
CUDA和图形内核的执行顺序
、
1)
主机
:启动图形内核2)
主机
:启动CUDA内核(所有异步调用) 3)
主机
:在
主机
上执行一系列数字
运算
4)返回步骤1 我的问题是。CUDA API保证CUDA内核即使是异步的,也会按启动顺序执行。假设我在
GPU
上进行了一些渲染相关的计算。如果我启动异步CUDA调用,它们是否只在渲染完成后才执行?或者这两个操作会重叠吗?它是否会停止
主机
,直到渲染相关的操作也完成?
浏览 3
提问于2014-02-07
得票数 1
2
回答
带2个视频卡的CUDA C编程
、
、
我对CUDA编程非常陌生,正在阅读nvidia提供的“CUDA C编程指南”。()// Matrices are stored in row-major order: typedef struct { int height;
浏览 1
提问于2012-07-16
得票数 7
回答已采纳
1
回答
GPU
与决定论
、
、
、
我在考虑把一些数学
运算
卸载到
GPU
上。由于我已经在使用D3D11,所以我会使用计算机着色器来完成这项工作。但是问题是,无论用户有什么
GPU
,对于相同的输入,我都需要相同的结果。那么,浮点数学在
GPU
上是确定性的吗? 如果没有,
GPU
支持整数
运算
吗?
浏览 3
提问于2014-02-24
得票数 3
回答已采纳
1
回答
gpu
上的大矩阵乘法
运算
、
、
、
我需要在
GPU
上使用CUDA实现大矩阵的矩阵乘法。每个矩阵的大小都比
GPU
内存大。因此,我认为我需要一个算法来有效地实现这一点。我在网上找了找,但什么也找不到。谁能给我这样的算法的名称或链接。 谢谢
浏览 0
提问于2013-01-28
得票数 8
回答已采纳
1
回答
如何在两个
GPU
之间直接复制cudaArray?
、
、
假设我在
GPU
1中有一个
GPU
1,在
GPU
2中有另一个cudaArray。使用cudaMemcpyArrayToArray标志调用cudaMemcpyDeviceToDevice实际上会导致
GPU
1 cudaArray通过查看分析器复制到
主机
内存和复制到
GPU
2 cudaArray的
主机
内存。我尝试将
GPU
1 cudaArray复制到
GPU
1全局内存,并调用cudaMemcpyPeer将其复制到
GPU
2全局内存,然后
浏览 6
提问于2016-02-09
得票数 1
回答已采纳
2
回答
使用Sun Grid引擎(SGE)调度
GPU
资源
、
、
、
我们有一组机器,每台都有4个
GPU
。每个作业应该能够要求1-4个
GPU
。这里有一个问题:我想让SGE告诉每个工作,它应该采取的
GPU
(s)。与CPU不同的是,如果一次只有一个进程访问
GPU
,则
GPU
的工作效果最好。所以我想:Job #2
GPU
: 2我遇到的问题是,SGE将允许我在每个节点上创建一个包含4个单元的
GPU
资源
浏览 6
提问于2012-05-11
得票数 4
回答已采纳
1
回答
有可能有不同的开发虚拟机环境和访问图形卡吗?
、
、
、
测试应用程序的环境 首先,我使用VirtualBox为#1和#2在我的
主机
Windows中创建了VM环境,但是我不能在VM中运行,因为它不提供对图形卡的访问。
浏览 1
提问于2021-01-12
得票数 0
1
回答
不使用第二次
GPU
将AMD
GPU
传送到虚拟机
、
我阅读了一些关于将
GPU
传递到虚拟机的主题,但这些示例需要两个
GPU
(一个用于VM,一个用于
主机
操作系统)。现在,我发现有人提到将系统
GPU
中可用的单个文件传递给VM。这在Ubuntu有可能吗?
浏览 0
提问于2015-03-11
得票数 1
1
回答
winkydink如何在ESXi /SolidWorks/1080 p YouTube应用程序上提供高分辨率、完整的FPS、3D渲染?
、
、
、
、
我看不出这么小的低配置卡怎么可能有足够的马力来处理这样大的环境下的
GPU
计算。我们每台服务器将有多达64个VDI,是一家500到1000名员工统计规模的公司。有人指点我吗!我不确定这张卡是否意味着是一个独立的(不需要
GPU
),还是应该与
GPU
结合(对于我们的应用程序),或者根本不麻烦Teradici,等等。根据微软的说法,2GB的VRAM在计算更密集的时候将支持16个VDI(
GPU
方面的ofc);这是关于RemoteFX的最佳或推荐的实践。获得
GPU
的第一个初始原因,正如您在这里可能收集到的,是因为有足够
浏览 0
提问于2012-10-06
得票数 -4
回答已采纳
1
回答
CUDA分配字符串数组
、
、
、
每当我运行包含这些行的脚本时: HANDLE_ERROR(cudaMalloc((void **)&
gpu
_reads, inputDim * sizeof(char *))); HANDLE_ERROR(cudaMalloc((void **)&(
gpu
_reads[i]), (READS_LENGTH+ 1) * sizeof(char))); for(i=0; i<in
浏览 0
提问于2016-06-10
得票数 0
2
回答
在设备上分配CUDA变量之前,为什么需要在
主机
上声明CUDA变量
// declare
GPU
memory pointersfloat * d_out; cudaMalloc((void**) &d_in, ARRAY_BYTES);当
GPU
内存指针被声明时,它们会在
主机
上分配内存。我想不出为什么cudaMalloc需要知道
主机
内存d_in &
浏览 6
提问于2017-03-27
得票数 1
回答已采纳
1
回答
TensorFlow:指定并行运行的
运算
数
据我所知,TF会并行调用多个
运算
符,只要它们是独立的。()编辑:b=tf.random_normal([N,N]) c=tf.random_normal(
浏览 3
提问于2017-01-11
得票数 2
1
回答
GPU
与远程
主机
之间的RDMA
、
、
、
、
可以在
GPU
和远程
主机
之间执行RDMA操作吗? Nvidia网站上的在线文档只提到在
GPU
之间进行RDMA,而没有提到在
GPU
-
主机
之间执行RDMA的可能性。注意事项:我可以访问一个配备了K80
GPU
和Mellanox的集群。
浏览 5
提问于2017-05-25
得票数 3
回答已采纳
1
回答
火炬速度比较-
GPU
比CPU慢
、
我试图找出
GPU
张量
运算
是否比CPU操作快。因此,我在下面编写了这个特定的代码来实现简单的2D添加CPU张量和
GPU
cuda张量,以查看速度差异:import time start_time = time.timetime = ',elapsed_time) 令我惊讶的是,CPU时间是0.93秒,
GPU
时间高达63秒。我是正确地做了库达张量
运算
,还是库达张量的概念只有在非常复杂的操作中才能工作得更快,比如在神经网络中?注:我的
GPU
浏览 1
提问于2018-11-15
得票数 10
2
回答
相当于在VM运行Linux的情况下查看眼镜?
、
、
、
看玻璃是一个开放源码的应用程序,它允许使用配置了通通
GPU
的KVM,而无需附加物理监视器、键盘或鼠标。 在查找眼镜术语中,
主机
软件是运行在VM来宾(使用
GPU
的VM )中的外观玻璃的术语。客户端软件是在Linux
主机
上运行的部分的术语,显示呈现的帧。“外观眼镜”
主机
目前仅限于Windows,它涵盖了主要的用例:在Windows中运行只使用Windows的
GPU
重型软件,在Linux
主机
上显示结果。我有一个稍微不同的用例:我将我的增强器无头
GPU
从Lin
浏览 0
提问于2021-02-04
得票数 1
回答已采纳
4
回答
c#中的高速矩阵
运算
?
、
、
我正在用c#编写一些图像处理代码,需要做一些矩阵
运算
(特别是2D卷积)。我有用matlab写的代码,它使用conv2函数...有没有一个用于C# / .NET的库可以做好的高速矩阵操作?如果它需要一些特定的
GPU
,并在
GPU
上做矩阵数学
运算
,如果这是需要的,我会很好。
浏览 0
提问于2010-05-25
得票数 3
回答已采纳
2
回答
当
gpu
的内存已满时,它能使用交换空间吗?
、
、
我的笔记本电脑有一个集成的
gpu
,内存为1.5 GB。我试图运行代码,但它给出了错误的结果。所以我猜这是因为
gpu
的内存已经满了。我的问题是,当
gpu
的内存已满时,是否有一些“交换空间”(或虚拟内存)可供使用?我知道cpu有这个机制。但我对
gpu
不太确定。
浏览 0
提问于2014-12-13
得票数 2
1
回答
Cuda编译过程是如何进行的?
、
、
、
根据NVIDIAs编程指南: CUDA应用程序的源文件由传统的C++
主机
代码和
GPU
设备功能混合而成。CUDA编译轨迹将设备功能与
主机
代码分离,使用专有的NVIDIA编译器和汇编程序编译设备功能,使用可用的C++
主机
编译器编译
主机
代码,然后将编译后的
GPU
函数作为加脂二进制图像嵌入
主机
对象文件中。在链接阶段,添加了特定的CUDA运行库,以支持远程SPMD过程调用和提供显式
GPU
操作,如
GPU
内存缓冲区的分配和
主机
-<
浏览 14
提问于2022-02-02
得票数 0
1
回答
带有ArrayFire的多个
主机
线程
、
、
对于如何在ArrayFire中使用多个
主机
线程,我有一个新的问题。我们目前有一个高度并行的CPU专用代码,使用Open和mpi4py并行化.每个CPU线程执行大型矩阵乘法,通常与多个线程同时相乘。我们希望通过使用ArrayFire在单个
GPU
上执行矩阵乘法来提高性能。我很难找到答案,
浏览 3
提问于2018-01-11
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
CPU上运算比GPU还快?美国莱斯大学最新研究克服硬件障碍
C语言位运算(按位与运算、或运算、异或运算、左移运算、右移运算)
CPU比GPU训练神经网络快十几倍,英特尔:别用矩阵运算了
百度云首批通过可信云GPU云主机认证,并摘得MAXP-最佳性能奖
Python中数字的相关运算:数学运算及函数运算
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券