这个工具就是CodeXL。 CodeXL 工具套件为软件开发者和独立软件供应商(ISV)进入一个并行编程的新时代奠定基础,以发挥各种计算系统中AMD高性能CPU、GPU和APU的计算性能。...CodeXL包含的新特性让开发者可以发掘AMD处理器的最大性能。
代码分析可以在windows下面用amd的codexl,直接对应exe就能分析出来代码所在的瓶颈。...或者用visual studio自带的analysis,或者linux下面免费的oprofile 比如下图我随便找了一个立体匹配的程序在codexl中跑过一遍后下面是分析的结果:可以看到热点函数和代码都给找出来了
cl::Local(512));//分配512字节的local memory 注意: 当使用这种方式动态分配local memory的时候,因为无法确定local memory的使用量,所以在使用CodeXL
sum:(ushort8)(0); } 但是使用CodeXL进行静态代码分析显示,这个kernel居然用到41个VGPRS(向量寄存器)!
http://developer.amd.com/tools-and-sdks/opencl-zone/codexl/ http://www.codersnotes.com/sleepy 简化代码 代码越清晰
OpenCL的实现中, 并不能使用调试器.例如NV的OpenCL, 不能通过NSight调试, 此时printf依然非常重要.再例如, AMD的OpenCL Kernel, 一旦使用了原子操作, 就会被CodeXL
下图是原来的算法在CodeXL GPU performance counters的记录结果。一次积分图计算的总执行时间在1.6ms左右 ?
领取专属 10元无门槛券
手把手带您无忧上云