首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

周末竟然没人讨论:强化微调的意义被低估

周六凌晨OpenAI发布了强化微调(Reinforcement Fine-Tuning),大白话说就是:让用户基于自己领域的少量数据(几十条),就能塑造出一个强大的专家模型。整个过程非常简洁,自定义数据集、配置超参数,结束。不需要过去fine-tune微调那样的数据标注,而是反馈奖励。看到了人人快速塑造自己领域模型的可能。

初步结论:

1. 还记得o1-preview时候Noam Brown留了个悬念,让大家思考为什么o1-mini有时候表现比o1更好现在看很可能是做了强化微调。说明什么?模型参数真的不需要很大了...这不是蒸馏的问题了,是超大参数的“知识模型”过于冗余,专业领域的推理能力不需要那么多参数。

2.数据壁垒降低,中小企业的机会可能来了。之前的思考模式是:大模型时代的数据壁垒越来越高,数据成为差异化核心要素。但从RFT的使用方式看,小公司基于自己的少量数据+开源小模型,也可以拥有自己的专家模型。但问题是,这里面o1底座的重要性有多大,比如用deepseek的“o1”,差距会很大吗?尚不可知。以及数据本身的“浓度”可能比“数量”更重要。各行业的“know-how”一定是高度浓缩的,虽然可能也是基于海量数据、或者海量经验试错得到的,但只要有edge,比如差异化数据,即使数据规模不大,也可以建立优势。也就是各公司自己的“奖励函数”,一定是高度提炼的。

3.从专业走向泛化的可能?OpenAI自己强调在生物化学、安全、法律、医疗上效果显著。因为上述领域都有明确规则,或“奖励函数”。但这已经比o1刚出时候的“数学和代码”范围更广。核心问题在于,这个奖励函数的获取成本变低,一个基座模型不可能穷尽各领域奖励函数,但可以交给各行各业,各行业自己的"know-how”就是那个奖励函数。按道理,强化学习的核心是“策略最优”,比如自动驾驶、游戏、手机Agent等等很多行业,都适合“策略优化”的模型训练目标。

4. 大幅降低了应用门槛。过去的问题就是统一的基座大模型,依靠其“昂贵”的泛化性去实现各个领域的专业应用,成本高昂且专业化、精确度不够。RFT范式下,小模型+专业少量数据的模式,至少让应用的实现成本大幅降低。瓶颈可能还是找个那个各自领域的“奖励函数”。这里自然有人会质疑,这不又回到过去“垂类AI”的老路了吗?似乎1)实现成本还是低得多;2)reasoning能力是泛化的,领域数据是定制的。想象空间应该还是大于上个AI时代。

5. 对算力卡的要求门槛是否降低?毕竟这种方式更偏向于“fine-tune”微调,且基座模型尽可能小、数据集又很小,整个算力要求很低。可能对国产卡是好事。

一些问题还没想清楚,欢迎补充:

1. 行业从通用大模型推理,到专业私域小模型部署,其实也是个范式转变。会如何演绎

2. OpenAI目前只给大学、研究机构、少数企业测试,这又不是sora,算力不成问题。明年才公开推广的瓶颈是什么

基于RFT有哪些投资机会?找到一篇海外分析文章,已上传。也欢迎来讨论。此外今天更新了Rubin-Next的288卡方案完整设计稿,也欢迎来探讨

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OyCmlJCyc_9ZXkHUsbiXqWGA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券