全文概览
当前,通用人工智能(AGI)的浪潮席卷全球,OpenAI的Sam Altman无疑是这场技术革命的焦点人物。我们惊叹于ChatGPT等大模型带来的强大能力,它们似乎正在重塑我们与数字世界的交互方式。然而,你是否曾思考过,真正的AI价值高地究竟在哪里?是那些追求“未来已然展开通用AGI”的前沿实验室,还是那些深藏不露、拥有海量专有数据的企业巨头?
本文将带你深入探讨一个颠覆性的观点:摩根大通首席执行官Jamie Dimon,凭借其独一无二的专有数据宝库,正成为Sam Altman在AI领域最强劲的竞争对手。这并非一场关于模型规模的竞赛,而是一场关于数据深度和应用场景的较量。我们常说数据是新时代的石油,但当这些数据被企业内部的“数字孪生”所激活,并驱动“企业AGI”时,其爆发出的经济价值将远超通用大模型所能提供的民主化洞察。
那么,为什么企业内部的专有数据比互联网上的公开数据更有价值?企业如何才能有效利用这些数据,构建起自己的AI护城河?以及,未来的AI竞争格局将如何演变,是通用模型的天下,还是垂直领域企业AI的崛起?让我们一同揭开企业AI的神秘面纱,探索其如何成为下一波AI价值释放的核心驱动力。
阅读收获
BREAKING ANALYSIS 作者:Dave Vellante 和 George Gilbert[1]
去年 11 月,我们曾论证[2],摩根大通首席执行官杰米·戴蒙拥有大量独特的专有数据,这些数据永远不会通过互联网进入专有的大型语言模型。因此,他成为了 OpenAI 首席执行官萨姆·奥特曼的最大竞争对手,因为他的数据比这些大型语言模型提供的民主化见解更有价值。
我们的前提是,并且仍然是,基础模型公司正在进行一场内部战争,追逐通用人工智能(“通用 AGI”),而真正的圣杯是我们所说的“企业 AGI”——即利用人工智能处理企业内部的专有数据,这最终将被证明是最有价值的经济活动。今天,我们扩展了这一论点,并提出由专有数据驱动的代理和企业数字孪生将推动下一波人工智能价值。
在我们之前的“杰米·戴蒙[3]”节目中,我们为“为什么”设定了一个框架。在本期 Breaking Analysis 中,我们将解释像摩根大通这样的企业将如何以前沿模型供应商无法企及的方式创造价值。我们将审视我们最初的论点,并分享进一步加强基础模型过程中,供应商面临的数据挑战。此外,我们将解释为什么由数据驱动的代理最终将在未来几年为企业带来最大的价值释放。
观看完整节目
我们将代理的演变分为三个不同的浪潮,如下所示:
消费者代理 – ChatGPT 的 GPT-3/4 时代让我们首次体验了个人数字助理。GPT-5 可能会提供第一个通用、面向消费者的代理,它可以代表用户采取行动,而不仅仅是聊天。
编码代理 – Anthropic 的 Claude 结合 Cursor 展示了当您在强大的基础模型上进行强化学习的再训练并将其应用于软件工程时会发生什么。代码是一个很好的试验场,因为结果是客观可测试的,就像数学问题一样。
企业代理 – 我们认为这是下一个前沿领域——即由企业实时数字孪生驱动的代理。不是像英伟达公司(Nvidia Corp.)的 Omniverse 那样对工厂等物理对象进行数字孪生,而是对企业进行数字孪生。在这里,格局发生了变化。这不仅仅是关于更大的模型;而是新的供应商技术栈、新的供应商商业模式和新的客户运营模式,我们将对此进行解释。其价值如此之大,以至于即使是杰米·戴蒙,凭借其庞大的资产负债表和比前沿实验室可获得的数据量大几个数量级的数据,也正在进入萨姆·奥特曼的竞争领域。
有了这个框架,让我们来分析一下为什么从消费者/编码代理到企业代理的飞跃不是线性的外推,以及在杰米·戴蒙能够切实挑战 OpenAI 的领先地位之前,需要出现哪些新技术和组织层。
我们对此主题提出以下额外观点:
正如我们之前讨论过的,戴蒙是企业以及他们内部拥有的专有数据和专有技术的代表,而前沿大型语言模型无法对其进行训练。这就是为什么真正的价值将来自于企业利用这些数据和专有技术来扩展前沿大型语言模型或类似模型,我们将解释原因。
真正的革命在于,我们已经从预训练时代的scalling定律——即 ChatGPT 和类似产品所构建的 GPT 模型——转向了再训练时代,也就是我们开始使用强化学习的时代。强化学习是试错学习的一个花哨的术语,而对于试错,你必须能够从错误中学习。
因此,这就是企业代理首次起飞的地方。然后我们的论点是,要超越这一点,我们将需要一种新的技术平台——企业数字孪生。
要从中获得真正的价值,我们将不得不采用一种新的——不仅仅是数据所在的基础层面的新技术模型——而是一种新的运营模式,企业必须围绕端到端的成果进行组织,例如新客户的入职,而不是部门或职能的专业化。
因此,我们将需要很多改变。主要观点是,杰米·戴蒙(作为领先企业的代表)以及他将从这个人工智能时代提取的价值,将需要与 ChatGPT 目前创造和捕获价值的时代相比,为像他这样的客户以及为他提供服务的供应商提供完全不同的工具和一套商业模式。
简而言之,我们认为这种转变——从预训练规模到再训练技能,从孤立的工作流程到以结果为中心的孪生——为未来十年的企业人工智能奠定了竞争棋盘。
让我们更深入地探讨第一波。
ChatGPT 在 GPT3.5 上启动了一切,但我们认为 ChatGPT 作为通用消费者代理的真正价值始于 GPT-5。OpenAI 自己公布的收入预测(下图红线)显示,从 2024 年的个位数数十亿美元增长到 2027 年的超过 500 亿美元——这一增长曲线让许多人觉得威胁到了谷歌搜索——我们将拭目以待。
上面的红色标注具有启发性,因为在 GPT-5 级代理能够从炫酷的演示转变为必备的个人助理之前,需要解决一些注意事项、技术重构和商业模式的改变。具体来说:
三十年前,投资者称赞万维网是历史上最伟大的合法财富创造。今天,我们听到了同样宏大的论断,即生成式人工智能超越了火、轮子和电力。GPT-5 可能会证明其中很大一部分夸大其词是合理的。通过统一多模态推理——语音、视频、工具使用、研究、代码执行——OpenAI 有望推出第一个真正全栈的消费者代理,按任何历史标准衡量都是一款重磅产品。
但从头条新闻到习惯的飞跃需要多方面的变革:
头条新闻是 GPT-5 可以引发大规模的消费者采用,但广泛的价值捕获取决于重新连接万维网和重新货币化内容(回应前文对优质内容的微支付)。这甚至还没有解决企业部署特有的额外障碍,这些障碍带来了自己的技术、治理和运营模式需求。
在我们对 GPT-5 感到过于兴奋之前,让我们来看看规模的残酷经济学。下面的数据讲述了一个重要的故事。
右上图:那条“scaling 定律”线(X 轴为预训练的计算 Petaflops 对数,Y 轴为测试损失对数,这是描述准确性和识别越来越精细模式的能力的一个花哨的说法)稳步下降——但每一点改进都需要计算 Petaflops 天数(PF-days)的量级飞跃。
让我们来分析一下上述数字的来源。
在上图的幻灯片中,左轴显示了每次生成的估计训练成本;右轴绘制了相应的测试损失改进。GPT-3 级模型的 3500 万美元是常见的参考点。每一代 新模型 都需要大约 10 到 30 倍的训练 FLOPs 增加,但由于算法和硬件效率的提高,总现金支出在每个周期仍然增长约五到十倍。数字通常看起来较小,因为它们只包括最后两到三个月的生产运行。这解释了 DeepSeek 报告的 600 万美元成本的困惑;该数字省略了研究运行、数据剔除实验和重新启动,这些在最后一次通过开始之前会消耗三到十倍的计算量。
幻灯片中的曲线清楚地说明了第二点。每一次支出的增加只带来测试损失的渐进式下降——更好的预测准确性、更可靠的答案、更精细的模式检测。仅预训练的成本就已接近 100 亿美元用于一次下一代运行。在这个水平上,市场无法维持许多参与者,除非他们能在基础模型之上添加一个高度差异化的层。高质量训练数据即将到来的瓶颈和激烈的竞争,将挤压原始应用程序编程接口访问的任何价格溢价的幅度和寿命。
强化学习可以通过开辟新的缩放向量来解决收益递减法则。推理时间“推理”又开辟了另一个缩放维度。但预训练基础仍然需要不断进步。这意味着在前沿模型层面上竞争的资本强度持续呈指数级增长。只要终端市场继续以相似的速度增长,预训练的摊销经济学就会奏效。但当市场增长放缓时,预训练的成本将看起来像一盘抢椅子游戏,当音乐停止时。
到目前为止,我们主要关注计算成本,但还有一个同样残酷的限制需要讨论,那就是我们正在耗尽免费、高质量的人类文本。
上图跟踪了可用互联网令牌的“有效存量”(绿色带)与前沿模型消耗的数据集的预期大小(蓝色带)。这两条曲线在 2027-28 年左右相遇——这意味着模型改进的每一个额外点都将需要新的策略。
不过,我们应该指出,合成数据很容易通过计算机代码生成,因为你可以对其进行测试,因此合成数据现在具有更多的信号。它有效吗?它无效吗?你有各种各样的测试,这就是为什么正如我们将看到的,编码代理首先起飞。但正如我们将要展示的,试图克服这个数据墙的第一种方法是使用人类生成的推理跟踪,即你基本上让不同领域的广泛专家尝试阐述他们的解决问题策略,以找到解决特定领域问题的方案,而这是非常昂贵的。因此:
模型供应商的训练数据销货成本将大幅上升。根据公共政策的立场,他们可能需要付费许可专有出版商数据。正如我们从最近亚马逊/纽约时报的交易[4]中所见,这些交易已经开始。这是否是许多交易中的第一笔,还是一个高水位标记仍有待观察。
更重要的是,模型供应商将不得不从越来越多的领域中获取越来越复杂的难题和“推理跟踪”给人类专家。这正是 Scale.ai 等数据供应商所擅长的。
Scale AI 的 Alex Wang 表示,下一个突破取决于人类注释的思维链——而不仅仅是更多的抓取文本。如此深度的注释是昂贵且缓慢的。这是下一个瓶颈。这种数据稀缺性重塑了前沿模型预训练的经济学。这就是为什么 Meta 据报道斥资约 150 亿美元收购 Scale.ai 网络专家股份的原因。
收听 Alex Wang 解释这一现象[5]
Wang 提出的一个关键观点是:“数据生产将是未来人工智能系统的生命线”,他强调了人的因素——这就是为什么 Meta 斥资 150 亿美元收购 Alex 的原因。
对 Alex Wang 言论的一些额外背景:数据生产与香料生产非常相似;它将是未来人工智能系统的生命线。最聪明的人是生命线的一个关键来源,但专有数据同样至关重要。摩根大通单独拥有数百 PB 的数据,而 GPT-4 的训练数据不到 1 PB。企业和政府拥有的专有数据量比前沿模型所摄入的数据量大几个数量级,而这个存储库可以为下一波真正精英系统提供动力。
悬而未决的问题是合成数据的作用。最可行的途径是混合人类-AI 生成:AI 处理大部分创建工作,而领域专家——具有深度推理能力的人——则注入高质量的更正和见解。混合人类-AI 数据是实现未来模型所需的极端质量和细微差别的唯一途径。
Meta 据报道以 150 亿美元收购 Scale AI 凸显了这一现实。此次收购更多的是为了获取 Alex Wang、一小群专家以及 Scale 在多个领域的专家标注者网络,而不是为了工具。人类专家推理跟踪已成为前沿实验室的新瓶颈。实际上,这些公司呼吁爱国的数据贡献,以便让其他人受益,因为没有这些人类验证的跟踪,大型语言模型将在其当前的天花板处停滞不前。
Alex Wang 言论中有趣的部分是,他基本上是在呼吁各个领域的专家为人类的利益“贡献”他们的专业知识。Scale 为这些专家支付报酬,但仍然是小时工资劳动。
“各尽所能,各取所需”这句俏皮话是卡尔·马克思经济哲学的心脏。如果你仔细观察,这听起来很像 Alex Wang 的提议:领域专家为模型训练贡献他们的知识,以造福人类。
在 150 亿美元的收购兼职后,Alex Wang 可能是历史上最富有的共产主义者。
在企业中,有一个非常具体的用例已经开始普及,并且有充分的迹象表明它能够独立支持前沿模型的训练。为什么编码是一个如此受欢迎的用例?为什么软件工程代理是企业中的第一个杀手级应用?
让我们深入研究一下。
下图顶部的面孔是 Anthropic PBC 首席执行官 Dario Amodei,他的 Claude 模型为 Cursor 产品提供动力——该产品是软件工程代理。而 Cursor 只是众多软件工程代理中的一个领先示例。
我们仍然在同一条智能随时间变化的曲线上,在 ChatGPT 消费者热潮之后,我们看到了一个标记为“Claude + Cursor SWE Agents”的新阶跃函数。左侧的收入表——发布时为 100 万美元,第 12 个月为 1 亿美元,第 24 个月为 3 亿美元,第 30 个月为 5 亿美元——说明了其普及速度有多快。
是什么让编码特别适合早期企业代理的成功,以及在我们将LLM 推广到反馈信号不那么清晰的金融、供应链或客户服务领域之前,还有哪些障碍?答案在下面的评论中提供:
试错学习——正式称为强化学习——解释了软件工程代理的突破性成功。与消耗 15 万亿个令牌数据的基础模型不同,编码代理会生成自己的数据。它提出一个解决方案,运行一个测试,并立即从通过/失败的反馈中学习。这个循环提供了无尽的合成数据和内在奖励信号,消除了对海量专有数据集的需求。同样重要的是,工作流程可以轻松地集成到现有的开发人员工具中,因此采用不需要组织上的手术。
这些条件使得软件工程成为人工智能代理的天然滩头阵地。Cursor 是标志性的参考点,但许多类似的工具正在快速扩展,几乎所有这些工具都倾向于将 Anthropic 的 Claude 前沿模型作为首选引擎。大多数产品专注于编写全新的代码或在语言之间进行翻译;对遗留代码库进行整体重构是一个更难的问题,并且在很大程度上仍未被开发。软件和数学的成功并不自动适用于其他企业领域,在这些领域,同等的、高保真的反馈循环更难构建——这是我们在后续幻灯片中探讨的一个挑战。(困难也凸显了场景的海量价值!)
让我们更深入地研究一下为什么软件工程和数学是如此好的例子。下图跟踪了过去五年中一系列“智能”基准——小学数学、竞赛数学、软件工程任务套件、多学科考试——的准确性。Y 轴是基准准确性;X 轴是日历年。一切都在稳步向上,直到 2024 年中期,然后红色框显示了近乎垂直的飙升。发生了什么变化?在强大的基础模型之上进行了再训练的强化学习。
在预训练时代——基本上直到 2024 年中期——数据效率适中,依赖于抓取大量但有限的免费互联网文本库。一旦这些水源开始枯竭,进展就遇到了收益递减。
转折点出现在 2024 年末,当时再训练时代开始占据主导地位。试错学习,即强化学习,允许模型生成候选输出,自主验证它们,并根据对错信号更新权重。数学和编码领域的基准几乎立即做出反应,以近乎垂直的速度攀升。
机制很简单:代理会检查自己的工作;如果测试通过,梯度就会强化该解决方案。如果失败,模型就会进行调整。这个循环在不需要数万亿个新令牌的情况下实现了显著的改进。这两个领域都提供了即时、明确的奖励信号——代码可以编译或不编译,或者通过单元测试或不通过;数学要么对,要么错——因此代理可以作为客观验证工具,重试并学习。这个紧密的循环意味着您不需要另外 10 万亿个令牌的预训练数据;您只需要一个可验证的奖励。
但右侧的图形指出了其中的诀窍。该配方尚未推广到例如法律推理或金融预测等领域,在这些领域,地面真相模糊、延迟或隐藏在人类判断中。(大量场景的价值判断仍处于人性主导的偏好,这一惯性将随着Agent工程的深入,而逐渐实现平权,当前 基于大模型的Coding 已实现平权)
泛化该技术仍然是一个悬而未决的挑战。出现了两条路径:
关键的收获是,一旦一个领域提供了自动验证器,再训练效率就会爆炸式增长。现在的竞赛是识别或构建软件和数学之外的可验证环境。
可能有一种新的合成数据生成方式,可以帮助我们克服数据瓶颈和客观可验证奖励的挑战——这在 Wang 套现支票后不久就出现了。这与试错学习(花哨的术语是强化学习)和能够验证主观答案而非客观答案的模型有关,而无需人类参与。换句话说,我们可能有一种方法可以绕过人类专家标注者详细说明他们的推理过程以得出正确答案。
看起来 GPT5 或其后续升级将尝试生成专家问题、答案和推理过程的组合,以得出答案。另一个模型将充当教师或验证者,对正确答案和推理过程进行评分。这样,模型就可以像学习数学和编码一样,在主观问题上快速积累能力。
有了可验证的奖励,软件工程代理的改进速度远远超过了通用的底层模型。一旦将强化学习注入可靠的奖励信号,进展就会呈指数级增长。
在下图中,Y 轴绘制了“任务长度”(想想:人类需要花费的实际工作时间)。平缓的绿色斜坡(七个月的节奏)被右侧的蓝色趋势线所掩盖——每 70 天将时间范围缩短一半。
左图(METR 数据)。在通用代理基准方面,人工智能可以完成的任务长度大约每七个月翻一番。GPT-2 可以回答一个琐碎的问题;GPT-4o 可以自主优化定制芯片的代码约 15 分钟。
该幻灯片突出了代理自我改进的核心问题。对于广泛的、松散验证的任务,唯一的提升来自于基础模型的通用改进和偶尔的评估周期——大约每七个月使自主任务长度翻一番。相比之下,软件开发代理的操作具有硬奖励信号:它们要么通过单元测试,要么不通过。这种可验证的反馈驱动强化学习,每70 天使任务复杂性翻一番。这里的指标很简单,代理在没有人为干预的情况下可以运行多长时间。更陡峭的斜率证明了硬的、二元的奖励信号可以将学习速度提高一个数量级。这是基本要点。
在为某个模型加冕之前,让我们看看代理人工智能产品兴起背后的模型的残酷经济学。在下图中,Y 轴是综合基准分数;每个彩色步骤代表一个新的模型发布。深色线突出了 OpenAI 的领先模型,它本身也在变化(每个方点),以及竞争对手的快速追赶(其他彩色线)。
阶梯图绘制了过去 24 个月 OpenAI、Anthropic、Google、Meta、DeepSeek、阿里巴巴等公司前沿模型的独立“人工智能智能指数”。
引人注目的是这两个维度都变得多么小。GPT-4o 取得了领先,但在几周内 DeepSeek R1 或 Gemini 3 就缩小了差距。API 之间的切换成本以几行 Python 代码衡量,因此 CAP 随着每次发布而缩短。换句话说,你可以花费十亿美元购买计算和数据,却只能享受六周的价格保护伞,然后市场就会将你的优势降至零。
关键在于,花费 100 亿美元和数年时间进行一次前沿训练运行,不再能保证持久的优势。一旦新模型发布,竞争优势几乎可以像新的消费电子产品周期一样迅速消失。与制药行业不同——专利保护确保了十年的独家经营权——模型训练没有任何可比的护城河。
目前的竞赛围绕着越来越大的计算集群和渐进式的算法调整。硬件规模对任何拥有足够资本的公司都可用;算法见解通过开放研究和员工流动性迅速传播。专有训练数据很有帮助,但它只是一个组成部分,很少是决定性的。要同时实现显著的竞争优势差距和持久的竞争优势期,游戏必须改变。
下一个时代将需要一个完全不同的数据基础,一个能够赋予持续、可防御优势的基础。这个基础就是后续部分讨论的企业数字孪生。
为了预告最后一节,杰米·戴蒙和任何其他能够将其数据建模为运营数字孪生的企业,都可以训练出具有非常高的 CAG 和持久 CAP 的专有代理(垂直领域模型/Agent)。所有的资本支出可能都投入到大约六家或更多的前沿实验室中(残酷竞争且不可持续),但可持续的差异化将在于这些企业。
现在让我们探讨一下这种动态如何在底层前沿模型的定价模式中体现出来。下图对此进行了说明。这是导致优势窗口缩小的关键:令牌价格正在自由落体。 Y 轴为每百万令牌的对数价格(从 100 美元降至不足一美分)。X 轴跨度为 2021 年 10 月至 2025 年 4 月。每条对角线显示新模型发布后,在几个月内将价格降低了一个数量级。
因此,每百万令牌美元与发布日期。每条彩色趋势线代表不同的能力层级——GPT-3.5 级(青色)、GPT-4 级(粉色)、GPT-4o 级以上(蓝色)。无论哪个层级,价格都在呈指数级下滑:
换句话说,你可以花费 100 亿美元进行 GPT-6 训练,然后在短短一个季度内,市场就会以不到一半的费用重新定价该输出。再加上客户 API 的最低切换成本,你就能明白其中的道理。
关键在于,我们认为具有持久经济效益的将是打包的_代理_——与专有数据和工作流程上下文捆绑在一起。
API 定价的加速崩溃与在此之上构建的产品经济学是分开的。风险资本以前所未有的速度涌入前沿实验室。国家基金正在资助国内模型开发,中国实验室正在激增,而备受瞩目的新进入者——包括埃隆·马斯克——正在争相加入这场竞赛。与 90 年代末的互联网泡沫的相似之处很难被忽视——数十亿美元追逐着越来越像海市蜃楼的东西。
如今,消费者代理的王冠已经戴在了现有领导者头上,而领先的 API 位置属于 Anthropic。持久的差异化将不会来自新一轮的资本密集型模型训练;它将来自于做一些真正不同的事情。这种必要性开启了下一个时代,届时优势将转移到差异化的数据基础和特定领域的代理平台。
让我们回到我们的人工智能三个时代。
我们已经完成了循环:消费者聊天机器人让我们开始,编码代理被证明是一个飞轮,但我们认为企业代理才是真正赚钱——以及建立长期护城河——的地方。将轨迹视为三个离散的时代,映射在您在整个节目中看到的曲线上:
核心要点是人工智能由数据编程,而真正的持久差异化将来自于专有数据。以摩根大通为例,代表任何先进的企业。初步估计其私有语料库约为 150 PB——这已经是训练 GPT-4 级模型所使用的 0.5 PB 到 1 PB 的数百倍。最近的数字表明,该银行可能持有约 1 EB 的数据。然而,数量本身并不是故事;关键在于如何对数据进行建模以代表日常运营。企业数据是密集、高信号的——如果组织得当,它比喂养前沿模型的广泛、低信号的爬取数据要丰富得多。
释放这些价值需要几个转变:
这些要素将触发新的上市模式、新一代的应用平台供应商、改进的技术栈,以及——最终——采用它们的企业的组织和商业模式变革。
让我们深入探讨一下企业 AGI 究竟是什么样的。下面是一个经典的图表,许多人使用它来描述代理人工智能的组成部分——但在我们看来,缺少一些关键部分来驱动企业。
大多数代理图看起来都一样——左侧是工具——日历、计算器、代码解释器、搜索;右侧是认知模块——规划、反思、自我批评、思维链、子目标分解;顶部是内存堆栈;底部是操作端口。整个画面以算法为中心,因为这是计算机科学研究人员奖励的。数据几乎没有出现,但在企业中,数据就是一切。
这张图——摘自最近的斯坦福计算机科学讲座——省略了真正创造价值的组成部分——即_环境_或_世界模型_。代理只能通过与环境互动并接收结果反馈来学习。在学术环境中,这种遗漏是事后才考虑的;在商业环境中,这是玩具和能够驱动收入、成本或风险的系统之间的区别。
主流代理思维中缺乏一流的数据层,这突显了为什么企业代理仍然是一个未被充分探索的前沿领域。颠覆就在眼前,但很少有人承认,因为对话主要由算法英雄主导,而不是数据现实主义。(当前阶段的话语权仍停留在互联网时代的算法精英手中,而真正的巅峰是要重新审视数据交互、自学习的逻辑)
让我们从一些现实世界的模型中提取一些代理开始的例子。
在我们对“企业数字孪生”这个短语进行过多自由解读之前,记住对人工智能研究人员来说最重要的第一个孪生是在游戏中看到的。
DeepMind 的 AlphaStar 不仅因为其模型架构的魔力而能够主宰《星际争霸 II》,而且还因为整个游戏环境——单位、资源、时机和战争迷雾的 4D 地图——都被暴露为一个完美、实时、真实的现实世界模型。
在下面的图表中,我们展示了比赛匹配评分或 MMR 百分比(X 轴)和技能水平(Y 轴)。蓝色曲线是人类从白银到宗师的进步;红点是 AlphaStar 突破了最高百分位数——发现了人类从未尝试过的策略,这得益于强化学习的数字孪生。
关键的见解是将游戏世界中的人、地点、事物和活动映射到企业内部的相同四个维度——人、地点、事物和流程。传统的平台提供静态快照,一种万花筒视图。代理需要更丰富、更动态的表示,以捕捉动作如何在整个企业中产生涟漪。当代理修改流程中的一个步骤时,它需要地图来追踪对下游人员和工作流程的影响。
强化学习首先在已经包含此类世界模型的环境中蓬勃发展。DeepMind 的《星际争霸》和 OpenAI 在 Dota 策略游戏上的工作是典型例子。每个环境都提供了连续、可验证的奖励——测试战略选择的中间信号和最终的输赢结果。这些条件允许代理快速迭代和改进。
同样的原则也适用于企业。通过构建一个四维数字孪生——人、地点、事物、流程——企业可以提供代理学习、适应并最终在复杂运营中取得可衡量成果所需的反馈循环。AlphaStar 和 Dota 的经验教训为这种更高级的企业级实现提供了蓝图。
如果一个代理可以利用合成世界模型击败 99% 的职业玩家,想象一下当“地图”是银行的数字孪生或供应链的实时模型时,它能做什么。但这同时也意味着企业——而不是供应商——必须拥有和管理世界模型,以便代理能够通过可验证的奖励进行学习。关键在于,AlphaStar 的经验教训将转化为金融、医疗保健和制造业,以及任何拥有数字孪生的领域。
Minecraft 是下一个参考世界模型。在 Voyager 项目中,环境比《星际争霸》更开放。代理开始学习如何制作简单的石器工具,然后使用这些工具建造基本的结构。随着能力的增长,它会发现如何制造更高级的工具,每一种新能力都会解锁更广泛的任务。随着时间的推移,代理会积累技能并扩展其可用的工具集。这种渐进式的、自主的学习能力至关重要,因为每一种新能力都会丰富环境,进而为进一步学习提供更丰富的反馈。这种模式——学习一个工具,用它来创造价值,学习下一个工具——为构建企业世界模型提供了一个重要的模板,代理可以在其中不断扩展自己的行动空间。
现在让我们真正强调数据的重要性。
关于人工智能的每一篇头条新闻都归功于_算法_——AlexNet、Transformers、RLHF、新的推理堆栈——但这张幻灯片的右侧提醒我们,每一次突破实际上都是由新的数据集时代所引发的。
算法 | 数据集 |
---|---|
AlexNet (2012) | ImageNet – 一个包含 1400 万张图片的标记语料库 |
Transformers (2017) | 网络抓取 – 大规模抓取的数万亿个令牌 |
RLHF 聊天机器人 (2022) | 奖励模型数据 – 人类评分的响应 |
推理代理(现在) | 企业孪生 – 可验证的、特定领域的模型 |
Jack Morrison 最近的一篇博客文章,在 Latent Space 播客上被重点介绍,强调了一个反复出现的盲点:每个人都专注于算法突破,而忽略了近在咫尺的数据集。
Morrison 描绘了推理时代,并指出代理将从验证者那里学习——数学的计算器,代码的编译器和单元测试——但却留下了关键的数据集框基本空白。数据集是显而易见的。每个组织都在构建或将构建一个捕获其运营的日益增长的数字孪生平台。这个孪生——人、地点、事物、流程——将是驱动企业级推理的海量、高保真语料库。
现在让我们将企业代理与我们所定义的数字孪生联系起来。
我们已经从消费者聊天机器人发展到编码/软件工程代理——下面的图表展示了这一切如何在公司内部运作。来自 Palantir 的图表在右下角显示了一个端到端的供应链孪生;左侧的红色标注突出了反馈给代理框的强化学习反馈箭头。指标树说明了“发生了什么?”如何汇总到“我们应该做什么?”
可以将其视为三个协同工作的层:
安装数字孪生——如此处所示的 Palantir 图表——仅仅是第一步。将该表转化为代理学习的引擎是指标树。与传统的商业智能仪表板不同,在仪表板中,关键绩效指标存在于孤立的表中或手动编码的公式中,指标树将每个度量连接到一个学习到的、分层的图中。更改一个节点——例如,授权产品退货——该树就会显示出对客户支持满意度、库存和现金流指标的影响。孪生越丰富,这些关系就越保真。
代理位于此结构之上,并动态选择与分析意图相对应的工具:
如果树中缺少一个指标,代理就会添加一个——这与“Minecraft”中的 Voyager 如何学习新工具和技能,然后将它们反馈到环境中相呼应。每个新指标都成为一个工具;每个成功的操作都成为一项技能;两者都流入孪生,迭代地扩展其范围。结果是一个自我增强的反馈循环:代理操作丰富了符号模型,而丰富后的模型反过来又提高了代理决策的准确性。孪生不必一开始就完美;它与代理能力同步增长。
让我们看看这将如何影响企业架构。
下面的图形建立在我们之前的工作之上,并将所有内容整合在一起。它还回答了这个问题:谁实际上在构建业务的实时数字表示?
该图形重现了在 Breaking Analysis 和 Services-as-Software 中常用的分层堆栈。
这种模式反映了信息技术史:每个新的抽象层都会包围其下层。较低的层不断创新,但一旦上层决定公开哪些功能,它们就会失去基于功能的差异化和定价能力。传统数据平台捕获字符串的快照;以指标为中心的平台将这些升级为事物快照。绿色层更进一步——捕获流程——连接了六十年的应用程序和数据孤岛。
快速浏览一下竞争者:
利润和控制将归属于捕获流程并为代理提供动力的层;数据基础设施虽然必不可少,但却成为其下方的成本优化基础。
现在让我们关注企业软件如何分裂成两个世界。
想象一下最近邦德电影中的冰湖场景:拉米·马利克的反派毫发无损地站在光滑的冰面上,而潜水员在下面的冰冷水中扑腾。这个比喻捕捉了企业软件如何分裂成两个截然不同的世界。
行业正在相应地进行调整:冰面之上的参与者专注于建模的业务背景和更高的利润经济学,而冰面之下的参与者则面临着商品化的压力。战略选择是向上移动到以结果为导向的层,或者准备在基础设施战壕中应对利润的收紧。
讨论最终归结为一个结论:拥有连贯、高信号的企业数据是下一波人工智能价值捕获的决定性因素。实验室可能仍然主导着头条新闻模型发布,但这些模型越来越依赖于只有大型组织才能大规模拥有的专有地面真相数据。
在上面的视觉图中,萨姆·奥特曼位于左侧——世界著名的基础模型。阿莫迪位于左中位置,展示了在领域反馈上进行再训练可以产生有意义的 ARR。中右位置是每个人都在追求的奖品。在我们看来,企业的实时、可验证数字孪生由右侧的戴蒙代表,他是银行业最深厚的交易账本的保管者,完美地处于利用该孪生并在利润和护城河方面挑战模型实验室的地位。
===
Question
原文标题:How Jamie Dimon becomes Sam Altman’s biggest competitor
#CubeInsight#企业级AI方向
---【本文完】---
👇阅读原文,查看历史文章,推荐PC端打开 💻(更新到 7.31)。