三言科技 2月26日消息,DeepSeek正式启动“开源周”,将陆续开源5个代码库。前两个开源代码库分别为FlashMLA、DeepEP。
今天,DeepSeek官方推出开源第三弹:DeepGEMM。
DeepGEMM:一个支持dense和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 训练和推理提供支持。Hopper GPU 上最高可达1350+ FP8 TFLOPS。
DeepGEMM可以做到:
1、没有过多的依赖,像教程一样简洁
2、完全即时编译
3、核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调优的内核
4、支持dense布局和两种MoE布局
领取专属 10元无门槛券
私享最新 技术干货