首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    定位并行应用程序中的可伸缩性问题(最透彻一篇)

    我们将使用 Intel® VTune™ Amplifier 内存分析工具对内存问题进行详细分析。 我们不妨考虑一些改进简化的矩阵乘法benchmark的迭代。...图7 跨 QPI 数据流 图8显示了一个在以前的假设下无法提高性能的示例,以及使用 Intel VTune Amplifier 工具检测内存问题的方法。...令人意外的是,benchmark测试的运行时间并不比不支持NUMA的版本好很多,因此让我们使用 VTune 工具对内存访问进行分析(如图11)。...这些延迟可以用 Intel VTune Amplifier 工具的内存访问功能来计算,进而可以定位到哪些数据(matrix)仍然在以低效的方式被访问。...为了定位哪个矩阵的数据延迟很高,只需要在 Intel VTune Amplifier 工具中的栈窗格中检查内存对象的栈(如图15)。

    90411
    领券