首页
学习
活动
专区
圈层
工具
发布

奖励得有方

ai界,对于算法,一般都要用到奖励函数,它设计得如何?直接关乎着算法的灵活性。这种奖励,是一种目标导向。函数奖励了啥?它对后续工作流是不是能激活?这是需要我们思考的问题。如果奖励是终点,我们的效率是打折扣的。为什么?它会把ai代入误区:追求奖励而工作。我认为要把奖励变成工作流的所需的变量要素,我们就成功了。它不能当评判者,要亲自融入工作流中去,才是函数奖励的价值所在。

大家知道,人们看待问题很讲究优先级,权重的地位不言而喻。权重是动态变化的,如果有函数奖励为权重,它就可以直接影响人们的做事风格。为啥?人们设置好函数需要的元素,搜集好这些元素,函数自动计算出了做事的权重,人就不会为优先级多考虑了,找做就是了,流程顺畅得多,也是一种贡献吧!你觉得呢?

我常想:奖励不是独立的评判者,应该是融入算法的动态血液。鲜活看得见,才是它本来的味道。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OACCW8fE3Yx8vXiODnIWFLBg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券