首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI的内乱来自一封信,信里谈到人类的威胁Q*,而Q*的背后是这两种算法

路透社报道,Sam Altman被OpenAI解雇,原因是一封由OpenAI内部研究人员发送给董事会的信件。信中警告称,他们发现了一种可能对人类构成威胁的重大人工智能技术,被称为Q*(发音为Q-Star)。

一些OpenAI的人认为Q可能是通向超级智能或人工通用智能(AGI)的重大突破。研究人员认为它可能对人类构成威胁,这封信和该Q是导致Altman被解雇的关键因素。

而OpenAI 的新技术 Q*(Q-star)的背后是两个关键算法:Q Learning(一种强化学习算法)和 A Star(一种搜索算法)。

Q Learning(强化学习算法)和A Star(搜索算法)是两种不同的机器学习算法。

下面我会用简单的例子来解释这两种算法。

Q Learning(强化学习算法):

想象你是一个小机器人,刚刚被发明出来,你对世界一无所知。你需要在房间里找到出口,走出房间。但是房间里有许多障碍物,你需要尝试各种方法才能找到出口。这个过程就是强化学习。

在强化学习中,你(机器人)通过尝试各种行为(比如向左走、向右走、跳跃等),来获得奖励(比如靠近出口、远离障碍物等)。你根据获得的奖励,来调整你的行为,以便下次能更好地找到出口。这个过程重复多次,直到你找到出口。

A Star(搜索算法):

现在,假设你是一个小男孩,要在一个大城市里找到你的朋友。你不知道你的朋友在哪里,但是你知道城市里的道路和建筑物。你需要找到最快的方法找到你的朋友。

在A Star搜索算法中,你从你的家出发,一步一步地探索城市。每次你都可以选择继续向前走,或者回到之前的点。你根据你当前的位置和目标位置,来选择下一步的行动。你不断地重复这个过程,直到找到你的朋友。

总  结:

Q Learning(强化学习算法)就像是一个机器人,通过不断地尝试和获得奖励来学习如何做出最好的决策。而A Star(搜索算法)就像是一个人,根据当前的位置和目标,来选择下一步的行动,以便尽快达到目标。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OrZlY58G-IVLo8aMkc1YoOOw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券