首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >库达:为什么一个特别的备忘录复制业务的成本总是比其他类似的业务高出10倍。

库达:为什么一个特别的备忘录复制业务的成本总是比其他类似的业务高出10倍。
EN

Stack Overflow用户
提问于 2013-05-02 05:47:55
回答 1查看 526关注 0票数 0

我相信下面的代码实现了一个典型的

  • 复制到设备
  • 调用内核
  • 复制回主机

工作流程。

  1. 我发现非常奇怪的是,当我使用NSight Profiler的选项时,在报告中打开了“堆栈跟踪”,我发现最昂贵的操作是用粗体显示的行,只有一行,而其他memoCopy操作的成本几乎只有这个memoCopy操作的10%或更少。 这是因为它是调用内核之后的第一行,因此分析器以某种方式将一些同步成本包含到这个特定memoCopy操作的成本中吗?
  2. 对于像我正在处理的问题,它需要非常频繁的同步和‘返回’的结果主机,谁能提供一些关于最佳实践的一般性建议吗?我特别考虑了两种选择,我不太确定这两种选择最终是否会有所帮助。
代码语言:javascript
复制
- use 'zero-copy' memory, (CUDA by Example 11.2)
- create my how synchronization using atomic operations

{

代码语言:javascript
复制
int numP = p_psPtr->P.size();
int numL = p_psPtr->L.size();

// Out partition is in Unit of the Number of Particles
int block_dim = BLOCK_DIM_X;
int grid_dim = numP/block_dim + (numP%block_dim == 0 ? 0:1);

vector<Particle> pVec(p_psPtr->P.begin(), p_psPtr->P.end());
Particle *d_part_arr = 0;
Particle *part_arr = pVec.data(); 
HANDLE_ERROR(cudaMalloc((void**)&d_part_arr, numP * sizeof(Particle)));
HANDLE_ERROR(cudaMemcpy(d_part_arr, part_arr, numP * sizeof(Particle), cudaMemcpyHostToDevice));

vector<SpringLink> lVec(p_psPtr->L.begin(), p_psPtr->L.end());
SpringLink *d_link_arr = 0;
SpringLink *link_arr = lVec.data(); 
HANDLE_ERROR(cudaMalloc((void**)&d_link_arr, numL * sizeof(SpringLink)));
HANDLE_ERROR(cudaMemcpy(d_link_arr, link_arr, numL * sizeof(SpringLink), cudaMemcpyHostToDevice));

Point3D *d_oriPos_arr = 0;
Point3D *oriPos_arr = p_originalPos.data(); 
HANDLE_ERROR(cudaMalloc((void**)&d_oriPos_arr, numP * sizeof(Point3D)));
HANDLE_ERROR(cudaMemcpy(d_oriPos_arr, oriPos_arr, numP * sizeof(Point3D), cudaMemcpyHostToDevice));

Vector3D *d_oriVel_arr = 0;
Vector3D *oriVel_arr = p_originalVel.data(); 
HANDLE_ERROR(cudaMalloc((void**)&d_oriVel_arr, numP * sizeof(Vector3D)));
HANDLE_ERROR(cudaMemcpy(d_oriVel_arr, oriVel_arr, numP * sizeof(Vector3D), cudaMemcpyHostToDevice));

Point3D *d_updPos_arr = 0;
Point3D *updPos_arr = p_updatedPos.data(); 
HANDLE_ERROR(cudaMalloc((void**)&d_updPos_arr, numP * sizeof(Point3D)));
HANDLE_ERROR(cudaMemcpy(d_updPos_arr, updPos_arr, numP * sizeof(Point3D), cudaMemcpyHostToDevice));

Vector3D *d_updVel_arr = 0;
Vector3D *updVel_arr = p_updatedVel.data(); 
HANDLE_ERROR(cudaMalloc((void**)&d_updVel_arr, numP * sizeof(Vector3D)));
HANDLE_ERROR(cudaMemcpy(d_updVel_arr, updVel_arr, numP * sizeof(Vector3D), cudaMemcpyHostToDevice));

int *d_converged_arr = 0;
int *converged_arr = &p_converged[0]; 
HANDLE_ERROR(cudaMalloc((void**)&d_converged_arr, numP * sizeof(int)));
HANDLE_ERROR(cudaMemcpy(d_converged_arr, converged_arr, numP * sizeof(int), cudaMemcpyHostToDevice));

// Run the function on the device
handleParticleKernel<<<grid_dim, block_dim>>>(d_part_arr, d_link_arr, numP,
    d_oriPos_arr, d_oriVel_arr, d_updPos_arr, d_updVel_arr, 
    d_converged_arr, p_innerLoopIdx, p_dt);

**HANDLE_ERROR(cudaMemcpy(oriPos_arr, d_oriPos_arr, numP * sizeof(Point3D), cudaMemcpyDeviceToHost));**
HANDLE_ERROR(cudaMemcpy(oriVel_arr, d_oriVel_arr, numP * sizeof(Vector3D), cudaMemcpyDeviceToHost));
HANDLE_ERROR(cudaMemcpy(updPos_arr, d_updPos_arr, numP * sizeof(Point3D), cudaMemcpyDeviceToHost));
HANDLE_ERROR(cudaMemcpy(updVel_arr, d_updVel_arr, numP * sizeof(Vector3D), cudaMemcpyDeviceToHost));
HANDLE_ERROR(cudaMemcpy(converged_arr, d_converged_arr, numP * sizeof(int), cudaMemcpyDeviceToHost));

}

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-02 08:35:38

这个特定的cudaMemcpy调用需要更长的时间,因为它需要等待内核完成。如果您在内核之后添加了一个cudaDeviceSynchronize,那么您感知到的cudaMemcpy调用的执行时间应该与所有其他调用一致。(当然,您看到的额外时间将用于您的cudaDeviceSynchronize调用)。

但是,您在cudaDeviceSynchronize上花费的时间是一个基本成本,您无法真正完成;如果您需要使用来自内核的输出,那么您将不得不等到内核运行完毕。由于内核启动是异步的,所以您可以在内核运行时执行不相关的语句;但是,在您的示例中,下一个调用是将内核的一个输出复制到主机内存中,因此您必须等待内核完成才能获得数据。

如果程序允许,您可以尝试将内核启动和内存传输分解为块,并使用不同的流启动它们,尽管这取决于几个因素(即内核可能不能很好地分解成独立的部分)。如果你真的走了这条路,最好的情况是这样的(取自数据自动化系统最佳做法文件)

这将允许您将数据传输与内核执行重叠,这将隐藏一些数据传输成本。您可以通过零拷贝实现类似的异步,只是预先警告这种传输不会被缓存,因此根据您的内核访问模式,您最终可能会得到更低的吞吐量。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16331163

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档