暂无搜索历史
上周突然发现公众号后台很多人私信我,我感到很奇怪。打开一看,把我震惊到了,一篇3年前写的文章,当时才200多阅读量吧,现在竟然6.8万了。。。而我的粉丝也才一万...
之前写过一个教程,教大家如何自己训练出一个文本生成的模型,然后用LightSeq来加速推理: 用了这个技术,我让模型训练和推理快了好几倍
Transformer系列模型都在用吧? Hugging Face都在用吧? Fairseq都在用吧?
就在昨天,超算领域的国际顶会SC22放榜了,我们组的论文也被接收了,得分44332(4分制):
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
这两天将我所有微信好友的头像弄出来了,一共5000多张。然后想着可以用它们来做些啥,最后用它们拼图玩。
封城第13天了,小区终于发放了第3次物资。这次的物资是三次以来最丰富的一次,还算不错。但是由于天降暴雨,大米都进水了,蔬菜也都泡水了。再加上昨天刚团购到货,所以...
之前经常在网上看到那种由一个个字符构成的视频,非常炫酷。一直不懂是怎么做的,这两天研究了一下,发现并不难。
但开心的同时也别忘了把模型训起来哦,通常一训就要好几天,不如花个几分钟先运行起来,周末结束不就能直接收菜了嘛!
这两天王力宏的瓜可谓是闹的沸沸扬扬,不怎么吃瓜的我也听了不少传闻。网上观点主要分为两派,一种无脑直接喷的,一种是说人品和艺术无关的。而我也想看看大家对他都什么看...
我下意识就想到了微积分,这不就建立坐标系,求出交点,计算积分就行了嘛。转念一想,小学生哪里会积分,这道题一定有简单的解法。
模型量化是模型加速方向一个很重要的方法,主要思想就是用int8数据格式来存储和进行计算。这样做有两点好处:
你需要有目标。短的也好,长的也好。认真定下的也好,别人那里捡的也好。就跟随机梯度下降需要有个目标函数一样。
学妹昨晚参加了B站的2022届秋招算法笔试,做完给我发来了一道题,想考考我,说挺难的。
矩阵乘法是神经网络中最基础、最重要的一个运算。在用CUDA实现矩阵乘法时,不需要我们手动写,cuBLAS库提供了现成的矩阵乘法算子,例如cublasGemmEx...
先来看看我的回答:https://www.zhihu.com/question/365763395/answer/2070162652
前几个月一直有不少小伙伴问我要「LightSeq的BERT推理加速代码」,当时内部已经使用了,但是一直没空整理开源。
我写了一个代码,从QQ音乐上收集了吴亦凡所有的歌词信息,自动汇总整理成一个txt文件,代码在下面:https://github.com/godweiyang/l...
相信很多人都知道Hugging Face,也都用过它的Transformers预训练语言模型,但你们有没有觉得它训练的有点太慢了呢?
你是否曾遇到这样的场景:在陌⽣的国家旅游因为听不懂当地⼈说话只能咿咿呀呀、⼿语⽐划、连蒙带猜?