温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
Think开源之后,第一天就爆出了一个王炸级的开源项目。一个能让大模型推理速度翻倍的涡轮增压器。到底是哪几项呢?我能怎样呢?首先第1个就是性能。它可以让H8摆在GPU上。内存直接飙升到每秒钟300GB。算力冲上580。Los.相当于每秒钟就可以计班计算581次,简单来说,同样一块显卡,现在的比之前的能多处理50%的请求,企业直接成本砍半。第二个就是它处理长文本,传统的处理长文本就像一个大卡车拉着小的包裹一样。很多空间它都浪费了。而现在,他们使用一种叫分页KV缓存的技术。可以动态调整,就相当于把每一个算力都高效的利用起来,第3点,大家把它称为开元件的技术扶贫,之前此类技术这都是被一些巨头公司垄断,像中小公司只能干瞪眼看。而现在flash m Li开源后。
01:05
开发者只需要几行代码就可以集成到他所要的爆敛效本框架上,开源推理效率直接原地起飞,并且他开放了实操指南,你只需要简单的3行代码就可以快速的在本地抛弃这个DEMO来,而且是pon。Think预告本周要开放4个核心模块。包括分布式训练框架,还有moe路由优化器等。我们后面拭目以待。
我来说两句