我直接访问cuda内核中的主机mem,没有发现错误,这是为什么?
我试着从那里变得更聪明。
分配主机内存的大小字节,该内存是页面锁定的,并可由设备访问。驱动程序跟踪此函数分配的虚拟内存范围,并自动加速对cudaMemcpy*()等函数的调用。,因为该内存可以由设备直接访问,因此它可以以比使用malloc()等函数获得的可分页内存更高的带宽进行读写。
为什么许多cuda程序会在cudaMemcpy之后添加cudaMallocHost?
#include <stdio.h>
#include <assert.h>
#define N 64
// cuda ker