路透社报道,Sam Altman被OpenAI解雇,原因是一封由OpenAI内部研究人员发送给董事会的信件。信中警告称,他们发现了一种可能对人类构成威胁的重大人工智能技术,被称为Q*(发音为Q-Star)。
一些OpenAI的人认为Q可能是通向超级智能或人工通用智能(AGI)的重大突破。研究人员认为它可能对人类构成威胁,这封信和该Q是导致Altman被解雇的关键因素。
而OpenAI 的新技术 Q*(Q-star)的背后是两个关键算法:Q Learning(一种强化学习算法)和 A Star(一种搜索算法)。
Q Learning(强化学习算法)和A Star(搜索算法)是两种不同的机器学习算法。
下面我会用简单的例子来解释这两种算法。
Q Learning(强化学习算法):
想象你是一个小机器人,刚刚被发明出来,你对世界一无所知。你需要在房间里找到出口,走出房间。但是房间里有许多障碍物,你需要尝试各种方法才能找到出口。这个过程就是强化学习。
在强化学习中,你(机器人)通过尝试各种行为(比如向左走、向右走、跳跃等),来获得奖励(比如靠近出口、远离障碍物等)。你根据获得的奖励,来调整你的行为,以便下次能更好地找到出口。这个过程重复多次,直到你找到出口。
A Star(搜索算法):
现在,假设你是一个小男孩,要在一个大城市里找到你的朋友。你不知道你的朋友在哪里,但是你知道城市里的道路和建筑物。你需要找到最快的方法找到你的朋友。
在A Star搜索算法中,你从你的家出发,一步一步地探索城市。每次你都可以选择继续向前走,或者回到之前的点。你根据你当前的位置和目标位置,来选择下一步的行动。你不断地重复这个过程,直到找到你的朋友。
总 结:
Q Learning(强化学习算法)就像是一个机器人,通过不断地尝试和获得奖励来学习如何做出最好的决策。而A Star(搜索算法)就像是一个人,根据当前的位置和目标,来选择下一步的行动,以便尽快达到目标。
领取专属 10元无门槛券
私享最新 技术干货