在MIT的达沃斯讨论会上,DeepMind 的联合创始人Mustafa Suleyman 被问到Alpha zero 的强化学习是否真的证明可以不要训练数据?除了游戏还有什么应用?
DeepMind 的联合创始人Mustafa Suleyman 非常坦诚地说:alpha zero 只是在三个前提条件成立的情况能够工作:
可预测环境(围棋规则);
清晰奖励系统(输赢);
无变数(variability) ;
Mustafa Suleyman还表示,他们正在探索在游戏之外的应用,但是初步预测这不会是很容易的,因为真实世界比游戏复杂很多,他预测会需要3-5年时间。
他也提到:alpha zero 本身并不能带来AI对于数据的需求,但是他觉得在数据生成和模拟上的进步(比如说用真实语音合成、人脸合成、甚至类似Grand theft auto来做自动驾驶的模拟)是有可能在未来自动产生可补充的数据。
免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。
文章来源:全球人工智能
领取专属 10元无门槛券
私享最新 技术干货