首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了

最近,复旦大学自然语言处理(FudanNLP)团队桂韬、张奇课题组在这一技术难题上取得巨大进展!...项目主要作者 FudanNLP 组博士生郑锐补充到:"在开展 RLHF 项目的过程中,我们发现 PPO 算法是模型稳定训练的关键,而 RM (reward model) 的质量决定了模型性能的上限,在本次开源的...技术公开 FudanNLP 团队总结提炼出的 PPO-max 算法后续将接入复旦大学此前开源的 MOSS 模型,作为 “MOSS-RLHF” 模型发布。...通过这一突破,FudanNLP 团队为 MOSS 补全了类 ChatGPT 模型训练最关键的流程,打造出国内首个借助 RLHF 实现人类对齐的中文大模型。...FudanNLP 团队将与业界社区分享其具体技术细节与代码,希望以此推动国内大模型人类对齐训练的进展。

36760
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
    领券