每天给你送来NLP技术干货!
作者:Gordon Lee (转载请联系作者) 链接:https://www.zhihu.com/people/gordon-lee
1. R-Drop:两次前向+KL loss约束
2. Post Training: 在领域语料上用mlm进一步预训练
3. EFL: 少样本下,把分类问题转为匹配问题,把输入构造为NSP任务形式.
4. 混合精度fp16: 加快训练速度,提高训练精度
5. 多卡ddp训练的时候,用到梯度累积时,可以使用no_sync减少不必要的梯度同步,加快速度
6. 对于验证集或者测试集特别大的情况,可以尝试多卡inference,需要用的就是dist.all_gather,对于非张量的话也可以用all_gather_object
7. PET: 少样本下,把分类转为mask位置预测,并构造verbalizer,参考EACL2021. PET
8. ArcFaceLoss:双塔句子匹配的loss把NT-Xent loss改成arccos的形式,参考ACL2022. ArcCSE
9. 数据增强在zero shot x-lingual transfer:code switch,machine translation..记得最后加一致性loss,参考consistency regularization for cross lingual finetuning
10. SimCSE:继续在领域语料上做simcse的预训练
11. Focal loss: 不平衡的处理
12. 双塔迟交互:maxsim操作:query和doc的每个token表征算相似度,取最大相似度再求和。速度和精度都有一个很好的平衡,参考colbert
13. 持续学习减轻遗忘:EWC方法+一个很强的预训练模型效果很不错。就是加一个正则让重要参数遗忘不太多,重要性用fisher信息度量。
14. 对抗训练:FGM,PGD,能提点,就是训练慢,
15. memory bank增大bsz,虽然我感觉有时候有点鸡肋
📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。
最近文章
EMNLP 2022 和 COLING 2022,投哪个会议比较好?
ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套! 后台回复【五件套】
下载二:南大模式识别PPT 后台回复【南大模式识别】
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!