暂无搜索历史
一直想系统看一下某个课程系统和科学的学习下 CUDA ,感觉 CUDA-MODE 这个课程能满足我的需求。这个课程是几个 PyTorch 的 Core Dev ...
早上浏览朋友圈的时候注意到HuugingFace的CEO Celm官宣了一个新的LLM排行榜OpenLLM Leaderboard2,阿里的Qwen2-72b-...
最近在整理先前实习做的一些工作,主要是对AI compiler做基于mlir的重构,以下是之前写的compiler frontend的一个比较基础的pass,针...
1.基于 onnxruntime,将 StableDiffusionInpaintPipeline、StableDiffusionControlNetImg2I...
这里提一下,我维护的几个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star,感谢读者们的认可,我也会继续在开源社区多做贡献。githu...
【前言】 本文版权属于GiantPandaCV,未经允许,请勿转载!最近在学neon汇编加速,由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且...
paper链接:https://arxiv.org/pdf/2405.04437v1
在openreview上看到最近NV的一个KV Cache压缩工作:https://openreview.net/pdf?id=tDRYrAkOB7 ,感觉思路...
来源丨https://zhuanlan.zhihu.com/p/701393483
上篇文章 flash-linear-attention中的Chunkwise并行算法的理解 根据GLA Transformer Paper(https://ar...
来源丨https://zhuanlan.zhihu.com/p/693556044
这里提一下,我维护的几三个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star,感谢读者们的认可,我也会继续在开源社区多做贡献。gith...
来源丨https://zhuanlan.zhihu.com/p/694877232
精准的定位是自动驾驶系统独立决策和安全运行的基石,也是SLAM中环路闭合检测和全局定位的核心。传统方法通常采用点云数据作为输入,和基于深度学习的激光雷达定位(L...
来源丨https://zhuanlan.zhihu.com/p/698447429
最近开始接触neon汇编,觉得这个东西在一些应用场景上好用,遂做些记录,分享下自己做的一些工作。
继续补 在GPU上加速RWKV6模型的Linear Attention计算 没有写完的内容,对flash-linear-attention库(https://g...
本文研究了大型语言模型(LLMs)在移动和边缘设备上的推理加速问题,这一问题在现实应用中具有重要意义。随着大型语言模型在多种任务中展现出卓越的性能,它们吸引了越...
尝试跑起来HuggingFace上release的DeepSeek V2,踩了几个坑,这里给出解决的方法。HuggingFace提供的开源DeepSeek V2...
本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法,在这篇博客中暂不涉及对kernel的深入解析。首先,flash-line...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市