当用户调用 API 使用 AI 服务时,会产生更多的数据,如用户图像、文本,用户交互数据等。这些新产生的数据被 Midjourney 收集起来,输入到 Step1,不断丰富数据和提高模型效果。...通过正反馈循环,数据和算法可以相互促进,不断提高,实现持续发展。
先发优势。能先构建数据飞轮,并抢占市场,可以通过网络效应获得先发优势。
双向网络效应。...强调了针对特定领域和任务的专业化模型的重要性。
这个原因是什么呢?...如果有足够的人的偏好反馈,我们可以直接学习来拟合这些反馈。
RL的学习过程比较不稳定,易受初始化、超参数等的影响,最终的策略也比较难以解释和理解。通过直接学习偏好反馈可以产生更加稳定和可解释的结果。...RLHF是一个比较研究性的话题,实际应用中更简单和直接的方法可能更加实用。所以,它并不必然是达到对齐的唯一或最佳手段。重点是数据与优化目标,手段可以根据具体情况选择。