, LOOP * OP_FLOATS * 1.0 * 1e-9 / time_used);
}
注意这里的TEST是使用了纯汇编实现,即test.S文件,代码如下,为什么一次循环要发射10条vmla.f32...q0, q0, q0
vmla.f32 q1, q1, q1
vmla.f32 q2, q2, q2
vmla.f32 q3, q3, q3
vmla.f32 q4,...测试结果
然后大概知道了硬件的浮点峰值,我们在优化自己的算法时就至少心中有数了。
3....,后面我们使用Python的matplotlib库把这些数据画到一张图上显示出来。...);
fflush(stdout);
「在编译之后运行时只需要新增一个重定向命令,即可获得记录了矩阵大小和GFlops的txt文件,例:.