前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >我有一个大胆的想法!

我有一个大胆的想法!

作者头像
量化投资与机器学习微信公众号
发布于 2019-07-17 09:10:43
发布于 2019-07-17 09:10:43
1.2K0
举报

前言

AI又完成了一项“里程碑式”的挑战。

一款名叫“Pluribus”的AI扑克牌机器人在六人无限制德州扑克这项复杂游戏中,碾压了人类职业选手!——这是AI机器人首次在规模超过两人的复杂对局中击败顶级人类玩家

这样的一项研究,你肯定会认为训练消耗的成本会非常大,对吧?

但是!恰恰相反!划重点:

Pluribus的蓝图策略在64核CPU的服务器上训练了8天,使用512 GB的RAM,没有使用GPU。在一般的云计算实例价格下,训练费用不到150美元!

这与其他最近的AI突破性成果形成鲜明对比,其中包括那些涉及游戏中自对战的突破,训练成本动辄就需要几百万美元。

许多网友们纷纷感慨:“原来小资源的研究也能推动人工智能研究大步向前发展”。这项研究让人们对如何构建通用的人工智能有了更好的基础理解

这项研究是由卡耐基梅隆大学与Facebook人工智能团队共同合作完成。目前,各大顶级期刊和知名媒体都在疯狂刷屏报道:

https://www.nature.com/articles/d41586-019-02156-9

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

https://www.techmeme.com/

那么这款德州扑克AI到底为何如此厉害?新智元带你慢慢揭秘。

Pluribus:面向“隐藏信息”更新算法,战胜职业牌手

几十年来,德州扑克一直是人工智能领域最难以攻克的重大问题之一。因为扑克对局涉及“隐藏信息”。你不知道对手的牌是什么,要想在牌局中获胜,需要成功运用bluff和其他多种策略,这些策略并不适用于国际象棋、围棋等对局。这使得德州扑克成为AI难以攻克的堡垒之一。

近年来随着技术的进步,AI在1V1德州扑克对局中,已经能击败顶级人类玩家。但如何开发出能够在1对多的牌局中战胜顶级玩家的AI,仍是研究人员不断努力的目标。

Pluribus是Facebook与卡内基梅隆大学合作开发的新型AI机器人,它成功实现了这一目标,击败了德州扑克精英人类玩家:比赛采用六人无限制德州扑克。Pluribus在“五个AI和一个人类玩家”和“一个AI 和五个人类玩家”的比赛中都击败了人类职业玩家。

在每个筹码价值1美元的假设下,Pluribus每手牌平均能赢5美元,在与五名职业玩家的对战中,每小时能赢 1000美元。可以说是取得了决定性胜利。

Pluribus在此前的德州扑克AI Libratus的基础上进行了几项创新,实现了这一成果,Libratus是2017年在双人无限注德州扑克中击败人类职业选手的AI,我们还借助了Tuomas Sandholm在卡内基梅隆大学研究实验室开发的其他算法和代码。

特别是,Pluribus采用了一种新的在线搜索算法,可以通过前面的几个步骤而不是仅仅搜索到游戏结束来有效地评估策略选择。Pluribus还针对涉及“隐藏信息”的对战使用新的、更快的自对弈算法。AI只需非常少的处理能力和内存就能进行训练,只需价值不到150美元的云计算资源。这种高效率与近期其他扑克AI项目形成鲜明对比,后者往往需要价值数百万美元的计算资源才能进行训练。

上面的视频中展示了Pluribus 在对阵几位职业玩家时采用的牌局策略。(牌面已公开展示)

这些创新在德州扑克以外的领域也具有重要意义,因为双人零和博弈(一个玩家赢了,另一个玩家就要输)在休闲游戏中很常见,但在现实生活中非常罕见。而在真实场景中,比如对有害内容采取行动,应对网络安全挑战,以及管理在线拍卖、导航流量,这些行为通常涉及多个参与者,并涉及隐藏信息。我们的成果表明,AI算法可以在双人零和博弈领域之外,也达到超过人类的表现。

来自职业牌手的赞誉:和AI打牌压力山大

“与Pluribus比赛最激动的事就是应对其在翻牌前采取的复杂策略。与人类不同,Pluribus在翻牌前会多次加注。这与人类对局的风格完全不同,很有意思。”

Seth Davies,职业扑克选手

“我很高兴能够与机器人对战,这是一种独特的学习体验。我认为机器人玩得非常稳。当我的手牌不强时,AI总能逼我做艰难的决定,而且AI在拥有强手牌时总能赢到钱,AI做的很漂亮,这是一个有趣的挑战,我很高兴再次与它对战。”

Trevor Savage,职业扑克选手

“Pluribus是一个非常努力的对手,任何手牌你都很难压倒它。AI非常善于在河牌轮下小注。非常擅长在手握好牌时尽量多赢。”

Cris Ferguson,WSOP冠军

“这个AI就是个bluff怪物。我觉得它比大多数人更有效率。你和它对战总能感觉到很大压力,你知道它随时可能在bluff。”

Jason Les,职业扑克选手

“每当和机器人玩牌时,我会选择一些新的策略。作为人类,我认为我们倾向于为自己过度简化对局,让对局策略更易于使用和记忆,更倾向于走捷径。机器人就不会走这种捷径,它的每个决定背后都有一个极其复杂而平衡的策略树。”

Jimmy Chou,职业扑克玩家

“能与机器人对战,并看到它选择的一些策略真的令人难以置信。AI是德州扑克发展过程中的一个重要组成部分,在面向未来的这一大步中获得第一手经验真是太棒了。”

Michael Gagliano,职业扑克玩家

从双人对战到六人混战,产生了哪些新问题?

六人的德州扑克对战与之前的二人对战的AI基准测试相比,多了两个主要挑战。

一、不再只是双人零和博弈

此前,所有取得突破的AI仅限于那些只有两名玩家或两支球队参加的零和博弈对局(如跳棋,国际象棋,围棋、双人德州扑克,星际争霸2和Dota 2等)。

在这些对局中,AI可以采用一种称为“纳什均衡”的策略。在双人和双队的零和博弈中,无论对手做什么,只要采用足够精确的纳什均衡策略,就能保证不输。(例如,“石头剪刀布”的纳什均衡策略是以相同的概率随机出石头、布或剪刀。)

尽管在任何有限制的对战中都会存在纳什均衡,但在三个或更多玩家参与的游戏中,纳什均衡难以有效计算。此外,在有两个以上玩家参与的游戏中,即使在精确的纳什均衡策略下,有时也无法避免失败。

在六人制德州扑克中,目标不应该是确定特定的博弈论解决方案的概念,而是创建一个从长远来看,可以凭经验击败人类对手的AI。对于AI机器人来说,这通常被认为是“超人”的表现。

我们用来构建Pluribus的算法并不能保证在双人零和博弈之外的领域收敛到纳什均衡。尽管如此,Pluribus在六人德州扑克中采用的策略始终能击败精英专业玩家,因此这些算法能够在超级玩家零和游戏之外的更广泛的场景中产生超人策略。

二、要面对复杂环境下的“隐藏信息”

没有其他游戏像扑克一样体现“隐藏信息”的挑战,每个玩家都拥有其他玩家所缺乏的信息(手牌)。一个成功的AI必须会推理这个隐藏信息,并仔细平衡策略,以保持对自身信息的不可预测,同时仍然采取良好的行动策略。例如,采用bluff偶尔会有效,但总用bluff就会容易被人摸透,可能会导致大量损失。因此,有必要仔细在“bluff”和“手握大牌下大注”的概率之间取得一个平衡。换句话说,就是令不完全信息博弈中的行动策略,取决于选择某策略和选择其他动作的概率区分上。

而在完全信息博弈中,玩家不必考虑这一点。国际象棋中的好手就是好手。但我们不可能将特定德州扑克牌局中的最佳策略与德州扑克的整体策略区分开来。

像Libratus这样的德州扑克AI,结合了基于反事故遗憾最小化(CFR)理论中的合理的自对战算法和精心构建的搜索程序,来应对牌局中的隐藏信息。对于不完全的信息博弈,牌局中的玩家的增加,会让对局的复杂性呈现指数级增长。以前的技术无法扩展应用到六人对局中,即使计算量提升10000倍也不行。Pluribus使用的新技术,比以前的任何技术更好地应对这一挑战。

Pluribus对战策略:从零开始自对战,8天训练战胜职业高手

Pluribus在牌局中策略核心是通过自对战计算出来的,AI自己和自己进行对局,没有任何人类对局的数据作为输入。AI从零开始,一开始是完全是随机行动,随着牌技逐渐提升,学着确定哪些行动更好,确定各类行动的概率分布中哪些可以产生更好的结果。Pluribus使用的自对战版本是迭代蒙特卡罗CFR(MCCFR)算法的改进版。

上面的视频中显示了蒙特卡罗CFR算法通过评估实际和假设行动值,来更新遍历者策略的过程。在Pluribus中,出于优化目的,这种遍历实际上是以深度优先的方式完成的。

此时,探索其他假设的结果是可能的,因为AI正与自己进行对局。如果AI想知道选择了其他一些行动会发生什么事情,那么它只需自问应该如何回应该行动就行了。

在对局中的每个决策点中维持每个动作的CFR,需要的计算资源比宇宙中原子总数还多。为了降低游戏的复杂性,我们忽略了一些操作,并通过抽取将类似的决策点放在一起。在抽象之后,划分在一起的决策点被视为相同决策点。

Pluribus经过自对战,输出整个对战中的蓝图策略。在实际对局中,Pluribus使用搜索算法改进了这个蓝图策略。但是,Pluribus并没有根据其观察到的对手的倾向来调整策略。

上图显示了在64核CPU训练期间,Pluribus的蓝图策略的改进过程。绩效是根据训练的最终快照来衡量的。

Pluribus的蓝图策略在64核CPU的服务器上训练了8天,使用512 GB的RAM,没有使用GPU。在一般的云计算实例价格下,训练费用不到150美元。这与其他最近的AI突破性成果形成鲜明对比,其中包括那些涉及游戏中自对战的突破,训练成本一般需要几百万美元。由于算法的改进,我们能够在如此低的计算成本下实现“超人”的表现。

超越人类的一个更有效的搜索策略

由于无限制德州扑克的规模和复杂性,蓝图(blueprint)策略必然是粗粒度的。

在实际游戏中,Pluribus通过实时搜索来确定针对其特定情况下的更好、更细粒度的策略,从而改进了蓝图策略。

目前,我们知道AI已经在许多游戏中大展拳脚,也使用了实时搜索,包括西洋双陆棋(double -ply search)、国际象棋(alpha-beta pruning search)和围棋(Monte Carlo tree search)。

但是,这些搜索方法对不完全信息博弈不起任何作用,因为它们没有考虑到对手在叶子节点之外转向不同策略的能力。这个弱点就导致搜索策略是非常脆弱且不平衡的,也因此使得AI无法解决这一挑战。

相反,Pluribus使用了一种方法,在这种方法中,搜索者明确地认为任何或所有玩家都可以在子游戏的叶子节点之外转向不同的策略。

具体而言,研究人员不是假设所有玩家都根据叶子节点之外的单个固定策略进行游戏,而是假设每个玩家可以选择四种不同的策略来玩剩余的到达叶节点时的游戏。

那么这四种策略是什么呢?

首先是预先计算的蓝图策略;第二是蓝图策略的修改形式,这个策略偏向于折叠;第三是偏向于调用的蓝图策略;最后一个是偏向于raising的蓝图策略。

这种技术可以让搜索者找到一个更加平衡的策略,从而产生更强的整体性能。若是选了一个不平衡的策略,就会让对手转向其他延续策略,例如,在玩儿石头剪刀布的时候,若是你总出“石头”,对手就会出“布”来应对你。

在不完全信息游戏中,搜索的另一个主要挑战是玩家在特定情况下的最佳策略取决于他的对手如何看待他的游戏玩儿法。如果玩家从不“虚张声势”,那么他的对手就会知道若是一旦下了大赌注,他们就会做出让步。

为了应对这种情况,Pluribus根据自己的策略,用每一只可能的手牌追踪它达到当前状态的概率。

无论Pluribus实际握的是哪张手牌,它都会首先计算每一张可能的手牌会如何行动——小心地在所有的手牌上平衡它的策略,让对手无法预测。一旦计算了所有手牌的这个平衡策略,Pluribus就会为它实际持有的手牌执行一个操作。

在游戏过程当,Pluribus在只2个CPU上运行。相比之下,AlphaGo在2016年与顶级Go专业人士Lee Sedol的比赛中使用1920个CPU和280个GPU进行实时搜索。

Pluribus还使用不到128 GB的内存。Pluribus搜索单个子游戏所花费的时间在1秒到33秒之间变化,具体取决于具体情况。

平均而言,Pluribus的速度是典型人类职业选手的两倍:在六人扑克中与自己的副本进行比赛时每手20秒。

Pluribus是如何对抗人类职业选手的?

那么,此次与AI对抗的人类职业选手都是谁呢?

2000年世界扑克大赛主赛事冠军Chris " Jesus " Ferguson、 2012年世界扑克大赛主赛事冠军Greg Merson以及四次世界扑克巡回赛冠军Darren Elias。

完整的全明星阵容包括:Jimmy Chou、Seth Davies、Michael Gagliano、Anthony Gregg、Dong Kim、Jason Les、Linus Loeliger、Daniel McAulay、Nick Petrangelo、Sean Ruan、Trevor Savage和Jake Toole。

上述每一位职业选手在职业扑克比赛中都赢得了超过100万美元的奖金,其中许多人赢得了超过1000万美元的奖金。

人工智能系统在其他基准游戏中与人类对战时,机器有时一开始表现得很好,但最终由于人类玩家发现了它的漏洞而失败。

人工智能要想精通一款游戏,即使人类对手有时间去适应,它也必须证明自己是能赢的。而这次,在几天的时间里进行了数千次扑克比赛,给了人类职业选手充足的时间来寻找AI的弱点来适应。

Elias说:“机器人不仅仅是跟普通的职业选手在比赛,而是在和世界上最顶尖的选手作战。”

这是Pluribus和职业玩家在实验中使用的界面

实验有两种形式

  • 5个人类职业选手与1个AI共同玩儿游戏;
  • 1个人类职业选手与5个AI共同玩儿游戏。

在每一种情况下,游戏都有六名玩家在参与,每一手开始都有10000个筹码。小盲注是50片,大盲注是100片。

虽然扑克是一种技巧游戏,但也有很大的运气成分。对于顶级专业人士来说,仅仅因为运气不好,就在1万手扑克牌的过程中输掉钱是很常见的。

为了减少运气的成分,实验使用了一种版本的AIVAT方差减少(variance reduction)算法,该算法在保持样本无偏的情况下,对每种情况的值进行基线估计,以降低方差。

5个人类职业选手+1个AI

在这个实验中,10000手扑克牌被玩了12天。

每天从专业人员中挑选五名志愿者参与。根据他们的表现,将50000美元的奖金分配给人类专业人士,以激励他们发挥最佳水平。

在应用AIVAT之后,Pluribus的获胜率估计为每100手(5 bb / 100)约5个大盲注,这被认为是在对战人类精英对手时取得的很好的胜利(盈利,p值为0.021)。

如果每个筹码都值1美元,Pluribus将会赢得平均每人5美元的奖金,并且每小时可以赚到1000美元。这一结果超过了职业选手在与职业、业余选手的混合比赛中获胜的预期。

Ferguson在实验后感慨道:“Pluribus是一个很难应付的对手。”

5个AI+1个人类职业选手

这个实验是由Ferguson、Elias和Linus Loeliger进行的。 许多人认为Loeliger是六人无限注德州扑克现金游戏中世界上最好的玩家。

每个人玩5000手扑克牌,桌上还有5个Pluribus。Pluribus并没有根据对手的情况调整策略,因此机器人之间的故意勾结不是问题。

总的来说,人类损失了2.3 bb/100。Elias下跌4.0 bb/100(标准误差2.2 bb/100), Ferguson下跌2.5 bb/100(标准误差2.0 bb/100), Loeliger下跌0.5 bb/100(标准误差1.0 bb/100)。

这张图显示了Pluribus在10000手实验中对职业扑克玩家的平均胜率。直线表示实际结果,虚线表示一个标准差

Elias说:“它的主要优势是能够使用混合策略,这也是人类试图做的事情。对人类来说,这是一个执行的问题——以一种完全随机的方式,并始终如一地这样做。大多数人就是做不到。”

由于Pluribus的策略完全是在没有任何人类数据的情况下从自我游戏决定的,因此它也提供了一个外部视角,即在多人无限制德州扑克游戏中最优的游戏应该是什么样子。

虽然Pluribus最初尝试通过自玩离线计算蓝图策略时采用了limping策略,但随着游戏的继续,它逐渐放弃了这一策略。但是Pluribus不同意“民间”的观点,认为donk投注是一个错误;Pluribus比专业人士更经常采用这样的策略。

Gagliano说:“和扑克机器人比赛,看到它选择的一些策略,真是令人难以置信的美妙。”

这张图显示了Pluribus在与职业选手竞争时的筹码数量。直线表示实际结果,虚线表示一个标准差

少量资源也推动人工智能发展:Pluribus让通用AI有了更好的理解

此前,人工智能在完全信息的双人zero-sum游戏中取得了一系列引人瞩目的成功。但现实世界中的大多数战略互动都涉及隐藏的信息,而不是两方的zero-sum博弈。

Pluribus的成功表明,在大规模、复杂的多玩家设置中,尽管缺乏已知的对性能的强有力的理论保证,但精心构造的自我游戏搜索算法仍然可以成功。

Pluribus的不同寻常之处还在于,它的训练和运行成本远低于近期其他用于基准游戏的人工智能系统。

该领域的一些专家担心,未来的人工智能研究将由拥有数百万美元计算资源的大型团队主导。

但是Pluribus是一个强有力的证据,证明了只需少量资源的新方法也可以推动前沿人工智能研究。

尽管Pluribus是为玩扑克而开发的,但所使用的技术并不针对扑克,也不需要开发任何专业领域知识。

这项研究 让人们对如何构建通用的人工智能有了更好的基础理解,它可以处理多智能体环境,既可以处理其他智能体,也可以处理人类,并让人们可以用人类能力的巅峰来衡量这一领域的进展。

当然,在Pluribus中采用的方法可能不会在所有多智能体设置中都成功。

在扑克游戏中,玩家交流和串通的机会是有限的。在构建非常简单的协调博弈时,现有的自我游戏算法可能无法找到一个好的策略。

然而,许多真实世界的交互——包括涉及欺诈预防、网络安全以及对有害内容采取行动的交互——可能被建模为涉及隐藏信息和/或多个智能体的场景,这些智能体之间的通信是有限的。

使Pluribus能够在牌桌上击败多个对手的技术可能有助于AI社区在这些和其他领域开发有效的策略。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI攻陷多人德扑再登Science,训练成本150美元,每小时赢1000刀
六人无限制玩法是德州扑克最受欢迎的游戏方式,Facebook 与 CMU 的成果是第一个在拥有两个(或以上)人类玩家的比赛中击败人类专业选手的 AI。
机器之心
2019/07/18
1K0
AI攻陷多人德扑再登Science,训练成本150美元,每小时赢1000刀
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1。现在全新的赌神Pluribus,终于取得突破,称霸多人局:
量子位
2019/07/17
6820
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
AI赌神称霸德扑的秘密,刚刚被《科学》“曝光”了
夏乙 问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI 称霸德州扑克赛场的赌神Libratus,是今年最瞩目的AI明星之一。 刚刚,《科学》最新发布的预印版论文,详细解读了AI赌神背后系统的
量子位
2018/03/22
8300
AI赌神称霸德扑的秘密,刚刚被《科学》“曝光”了
【重磅】AI击败顶级德扑玩家的秘密!德扑AI创造者现身reddit,全面解答34个提问,详解Libratus的现状和未来
翻译:刘畅、reason_W 编校:reason_W 编辑:鸽子 今年上半年,继AlphaGo多次升级连克人类高手之后,德州扑克终于也迎来了它的“破壁人”——人工智能Libratus。1月30日,来自CMU的人工智能Libratus战胜了顶级德州扑克玩家。然而比赛时,Libratus的创造者却是对其运作方式遮遮掩掩,这大半年关于Libratus的技术细节也少有曝光。直到这个月——先是在NIPS上取得最佳论文奖,接着15号《Science》杂志就发表其预印版论文,全角度解读Libratus技术细节。而L
AI科技大本营
2018/04/27
1.2K0
【重磅】AI击败顶级德扑玩家的秘密!德扑AI创造者现身reddit,全面解答34个提问,详解Libratus的现状和未来
深度 | 人工智能战胜顶级扑克玩家的背后,是 20 年来扑克机器人的不断进步
编者按:本文作者 Joshua Brustein,原载于Bloomberg,由AI科技评论编译。 四名世界上最好的职业扑克玩家一月份的大部分时间都猫在位于匹兹堡的大河赌场,品味着失败。他们会在上午11点前准时出现,身穿时髦的运动裤和有型的球鞋坐在电脑屏幕前。每个人在夜里回到宾馆房间前差不多要打1500手在线无限级德州扑克的1对1单挑。这通常意味着每天工作都会超过晚上10点。在这漫长的一天里,星巴克杯和水樽散乱堆放在玩家键盘旁,Chipotle墨西哥卷饼快餐包装袋散落在他们脚边。 每当一个人类玩家打出一手
AI科技评论
2018/03/09
7440
深度 | 人工智能战胜顶级扑克玩家的背后,是 20 年来扑克机器人的不断进步
AI赢了德州扑克背后,Nature总结最受关注的九大问题
△人工智能机器人在无限制下注 扑克中击败顶级职业扑克选手 王新民 编译自Nature 量子位·QbitAI 出品 人类发明的那些智力游戏,快要全面沦陷了。 人工智能已经在国际象棋、跳棋、围棋和西洋双路棋上击败了人类,最近它又占领了扑克领域。 两个不同团队开发的两个机器人,先后在一对一无限制下注的德州扑克上征服了多位职业扑克玩家。 第一个打败职业玩家的算法,是DeepStack,由加拿大阿尔伯塔大学的计算机科学家与查尔斯大学和捷克技术大学的合作者共同开发的。一个月后,在美国宾夕法尼亚州匹兹堡的Rivers
量子位
2018/03/21
1.5K0
AI赢了德州扑克背后,Nature总结最受关注的九大问题
人工智能已在赌场赢了100多万美元,德州扑克大战人类又要败了
今天是年三十儿啦,『量子位』祝大家新春快乐!在这亲友相聚的日子里,我们讲一个AI横扫赌场的故事,也挺适合你讲给他们听…… 报道 | 量子位 舒石 百万美元 年三十儿的黎明来临时,数字定格在106.5万
量子位
2018/01/30
9050
人工智能已在赌场赢了100多万美元,德州扑克大战人类又要败了
德扑AI之父转投OpenAI!Science封面研究大牛,顶会拿到手软
三年前,Noam Brown从卡内基梅隆大学(CMU)以230页超硬核论文完成答辩,拿下计算机科学博士学位。
量子位
2023/08/05
3420
德扑AI之父转投OpenAI!Science封面研究大牛,顶会拿到手软
那个赢了176万美元的德扑AI,马上要来中国掀起人机大战了
转载自 新浪科技 作者 李根 3月24日下午消息,新浪科技今日独家获悉,卡耐基梅隆大学(Carnegie Mellon University,以下简称CMU)开发的德扑人工智能程序Libratus,
量子位
2018/03/22
9310
那个赢了176万美元的德扑AI,马上要来中国掀起人机大战了
德扑AI这些年!
我对于德州扑克AI的接触始于2019年,那个时候我还在上研究生,当时有个挺有意思的老板通过icyChessZero(中国象棋alpha zero)这个项目找到我,问我有没有兴趣为他开发德州扑克的AI,他可以给我报销机器钱,还可以有一点点的报酬,当时我正好在看很多关于德扑AI的论文,本来也有这个打算,于是想都没想就接了这个活,也开始了我和德州扑克AI真正的交集。虽然到2020年最后我写的德州扑克solver并没有被采用,并且最后老板还是选择了名声更大的一个项目进行合作,但是这中间构建德州扑克solver的过程是有趣的,这个solver我也终于在今年春节期间把代码整理清楚并且开源,算是不旺我花费在德扑AI上的这些时间,开源的这个项目也是目前据我所知最完善的德州扑克开源solver,虽然它没有界面,功能也不能称得上尽善尽美,但是比起1000刀的piosolver,它不要钱啊!
量化投资与机器学习微信公众号
2021/03/11
2.2K0
游戏AI的缘起与进化
计算机科学家们一直对游戏 AI 乐此不疲,原因并非为了精进棋艺,而是希望在此过程中不断提升人工智能的算法和处理复杂问题的能力。实际上,游戏 AI 的历史几乎和人工智能的历史一样长,很多关于人工智能的研究,都起源于研究如何构建能够完成游戏的智能体(agent)。游戏 AI 的进化,始终与 AI 研究进展相生相伴。
AI科技大本营
2019/08/06
7130
解密!德扑界的AlphaGo:击败顶级德扑玩家的AI赌神Libratus
“AlphaGo退休了,我们还有赌神Libratus。” 今年上半年,AlphaGo多次升级连克人类高手,甚至以3:0一举击败如今世界排名第一的柯洁。而在德州扑克中,人工智能也出现了——Libratus。2017年1月30日,来自CMU的人工智能Libratus战胜了人类顶级德州扑克玩家。然而比赛时,Libratus的创造者并不愿意大肆宣传其运作方式,而这大半年里关于Libratus的信息也鲜有曝光。 直到这个月——在距离NIPS2017开幕还有半个月左右,Libratus的创造者Tuomas Sandho
企鹅号小编
2018/02/11
9820
解密!德扑界的AlphaGo:击败顶级德扑玩家的AI赌神Libratus
雀神,微软亚研推出超级麻将AI Suphx,还上了专业十段水平
麻将无疑是我国最家喻户晓,老少咸宜的一项棋牌游戏。近年来,随着人工智能在围棋、德州扑克、Dota、星际争霸等众多游戏中获得亮眼的成绩,AI 在麻将领域却一直缺少跨越性的突破。
机器之心
2019/08/30
7620
雀神,微软亚研推出超级麻将AI Suphx,还上了专业十段水平
会诈唬、会算计、会打扑克的AI会搞什么事情?
经过五天的鏖战,德州扑克人工智能系统Libratus毫无悬念获得最终胜利。在这场德州扑克人机大战中,中国龙之队的六位牌手共与冷扑大师打了36000手牌,共输792327分,AI完胜人类。 比赛的结局并
机器人网
2018/04/24
9040
会诈唬、会算计、会打扑克的AI会搞什么事情?
从麻将到“农药”,细数 AI 攻占的游戏领域
按照传统,大年初一需要走亲访友给长辈拜年的。但是今年情况特殊,全国人民正在备战“新疫情”,相信大家已经不会走街串巷,举行大型聚会了。
AI科技评论
2020/02/21
5850
从麻将到“农药”,细数 AI 攻占的游戏领域
携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开
当地时间 9 月 21 日,FAIR 研究科学家 Noam Brown 在推特宣布其顺利完成了 CMU 博士论文答辩,并公开了长达 230 页的超硬核博士论文《Equilibrium Finding for Large Adversarial Imperfect-Information Games》以及 101 页的 slides。
机器之心
2020/10/09
4560
携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开
【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI
【新智元导读】 “冷扑大师”libratus发明人之一的Tuomas Sandholm在新智元AI WORLD207世界人工智能大会上进行分享。他介绍了libratus是如何工作的,包括三大部分:抽象
新智元
2018/03/21
8290
【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI
教 AI 打牌打游戏,不止是为了战胜人类
场景描述:昨日,DeepMind 宣布其研发的 AI——AlphaStar 将会登录欧服,匿名在天梯上与人类玩家进行《星际争霸 2》比拼。今天,Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ,在六人局的德州扑克比赛中击败人类顶级玩家的消息又刷屏。AI 在游戏比赛中的表现越来越突出,但我们不断训练 AI 在游戏中去战胜人类,最终的目的与意义是什么?
kbsc13
2019/08/16
8920
40张图看懂扑克AI对抗人类30年历史,解密冷扑大师前世今生
【新智元导读】2017年是AI在扑克上取得突破的一年,冷扑大师Libratus和DeepStack 相继完胜人类,实现对人类专业级玩家的超越,毫无疑问是里程碑式的突破。在AlphaGo和Master与人类专业棋手的PK光环下,扑克AI的研究稍显黯淡,但是,以解决不完美信息博弈为目标的扑克AI路径难度和重要性并不亚于围棋。在商业谈判、医疗健康、网络安全、拍卖等领域,这一技术有着不容忽视的应用价值。本文以信息图示的形式,为你介绍扑克AI的历史、技术原理、对战细节、AI 的优势等,了解冷扑大师的前世今生。 201
新智元
2018/03/22
1.1K0
40张图看懂扑克AI对抗人类30年历史,解密冷扑大师前世今生
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
AI 科技评论按:昨天晚上,卡耐基梅隆大学计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学习分版,和网友们一起来了一场「你问我答」(ask me anything)。这两个名字大家现在也比较眼熟了,他们就是今年早些时候在人机大赛中首次打败职业扑克选手的 AI「冷扑大师」(Libratus)的创造者。 具体来说,在持续了 20 天、4 位人类职业选手分别上阵的十二万手一对一无限注德州扑克中,四位职业选手一共输给「冷扑大师」1766250
AI科技评论
2018/03/14
1K0
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
推荐阅读
AI攻陷多人德扑再登Science,训练成本150美元,每小时赢1000刀
1K0
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
6820
AI赌神称霸德扑的秘密,刚刚被《科学》“曝光”了
8300
【重磅】AI击败顶级德扑玩家的秘密!德扑AI创造者现身reddit,全面解答34个提问,详解Libratus的现状和未来
1.2K0
深度 | 人工智能战胜顶级扑克玩家的背后,是 20 年来扑克机器人的不断进步
7440
AI赢了德州扑克背后,Nature总结最受关注的九大问题
1.5K0
人工智能已在赌场赢了100多万美元,德州扑克大战人类又要败了
9050
德扑AI之父转投OpenAI!Science封面研究大牛,顶会拿到手软
3420
那个赢了176万美元的德扑AI,马上要来中国掀起人机大战了
9310
德扑AI这些年!
2.2K0
游戏AI的缘起与进化
7130
解密!德扑界的AlphaGo:击败顶级德扑玩家的AI赌神Libratus
9820
雀神,微软亚研推出超级麻将AI Suphx,还上了专业十段水平
7620
会诈唬、会算计、会打扑克的AI会搞什么事情?
9040
从麻将到“农药”,细数 AI 攻占的游戏领域
5850
携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开
4560
【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI
8290
教 AI 打牌打游戏,不止是为了战胜人类
8920
40张图看懂扑克AI对抗人类30年历史,解密冷扑大师前世今生
1.1K0
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
1K0
相关推荐
AI攻陷多人德扑再登Science,训练成本150美元,每小时赢1000刀
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档