首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Bert不完全手册5. 推理提速?训练提速!内存压缩!Albert

    Albert是A Lite Bert的缩写,确实Albert通过词向量矩阵分解,以及transformer block的参数共享,大大降低了Bert的参数量级。在我读Albert论文之前,因为Albert和蒸馏,剪枝一起被归在模型压缩方案,导致我一直以为Albert也是为了优化Bert的推理速度,但其实Albert更多用在模型参数(内存)压缩,以及训练速度优化,在推理速度上并没有提升。如果说蒸馏任务是把Bert变矮瘦,那Albert就是把Bert变得矮胖。正在施工中的文本分类库里也加入了Albert预训练模型,有在chinanews上已经微调好可以开箱即用的模型,同时支持领域迁移对抗,半监督,降噪,蒸馏等其他模型优化项,感兴趣戳这里>> SimpleClassification

    06

    绝对干货!NLP预训练模型:从transformer到albert

    语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后,受到了硬件资源的限制,于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小,因此当albert使用了和bert同样的参数量的时候,推理能力又上了一个台阶。正好最近这几个月也在研究语言模型,就把我对transformer等几个具有代表性的nlp模型的理解记录一下。

    02
    领券