暂无搜索历史
在之前的强化学习系列中我们介绍了强化学习的基础知识,也在系列十和系列十一中介绍了强化学习RL在LLM中的应用。
学习强化学习时,最让人头疼的莫过于那些看起来神秘莫测的数学公式。今天,我们就用最通俗的语言,为你揭开这些公式的面纱,看看它们到底在说什么。
预训练(Pre-training):利用数十亿到数万亿个token的庞大文本语料库对模型继续预训练,使模型能够根据提供的文本来预测「下一个单词」
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市