Import AI 454:自动化对齐研究;中国模型安全研究;HiFloat4
……这或许也是出口管制影响的一个症状,它驱动中国对最大化训练和推理效率的兴趣?……华为研究人员测试了HiFloat4(一种用于AI训练和推理的4位精度格式)与MXFP4(开放计算项目的4位格式),发现HiFloat4更优。这很有趣,因为它与中国公司寻求开发与自家硬件平台明确绑定的自有低精度数据格式这一更广泛的兴趣相关。
“我们的目标是在具有严格功耗限制的专用AI加速器上实现高效的FP4 LLM预训练。我们专注于华为Ascend NPU,这些是为深度学习工作负载设计的领域专用加速器,”他们写道。
测试内容: 本文中,作者在华为Ascend芯片上训练了三种模型类型——OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B。测试中,模型越大,HiFloat4相对于BF16基线减少这些模型损失误差的效果就越好——在所有情况下都优于MXFP4。
发现: “我们对HiFloat4 (HiF4)格式进行了系统评估,结果表明,与全精度基线相比,其相对损失(≈ 1.0%)低于MXFP4(≈ 1.5%),”他们写道。“与MXFP4相比,HiF4始终实现显著更低的相对误差。对于Llama和Qwen,HiF4相对于基线的误差差距小于1%……HiF4仅使用RHT作为稳定技巧就能达到接近BF16损失1%以内,而MXFP4需要RHT + 随机舍入 + 无截断缩放才能达到约1.5%。”
重要性——硬件成熟度的体现,以及出口管制的可能影响: HiFloat4是HiFloat8的更低精度版本,总体上反映了华为(以及中国芯片制造商)不断试图从其芯片中榨取尽可能多效率的事实。这是在出口管制的更广阔背景下发生的,由于无法大量获取H100等先进计算资源,中国在前沿算力上被“掐脖子”,因此通过精心开发与自有硬件匹配的低精度格式来提高本土芯片的效率变得更加有价值。
阅读更多: 用于Ascend NPU上语言模型预训练的HiFloat4格式 (arXiv)。
***
……非常早期且初步的迹象表明自动化AI研究是可能的……对于AI领域的许多从业者来说,最终目标是自动化AI研究本身。现在,Anthropic Fellows Program和Anthropic的研究人员发表了一些早期预警信号,表明自动化AI研究在今天已成为可能——尽管有许多注意事项。
“我们要问:Claude能否开发、测试并分析它自己对齐的想法?”研究人员写道。他们成功了,并成功构建了“提出想法、运行实验并在一个开放研究问题上迭代的自主AI代理:如何仅使用较弱模型的监督来训练一个强模型。这些代理的表现超过了人类研究人员,表明自动化这类研究已经具备实用性。”
弱到强监督: 研究人员测试的领域是弱到强监督,大意是看看一个较笨的东西能否有效监督一个较大的东西去完成一项困难任务。
总体结果——自动化研究击败人类: 他们让人创建一个弱到强的基线,方法是观察人们能在泛化任务上获得多好的“性能差距恢复”分数。数字越高越好。
“我们的两名研究人员花了七天时间,对先前研究中四种最有前景的泛化方法进行了迭代。在我们测试的开放权重模型上,人类恢复了总性能差距的23%,”他们写道。“Claude显著改进了这一结果。又经过五天(以及800小时累计研究时间),AAR几乎弥补了剩余的全部性能差距,达到了0.97的最终PGR。这花费了约18,000美元的令牌和模型训练费用,即每小时AAR花费22美元。”
此外,“AAR最有效的方法成功泛化到了新的数据集,在数学任务上PGR为0.94,在编码任务上为0.47(这仍然是人类基线的两倍)。”
实现方法: “我们通过一个仪表板启动了一组并行的自动化对齐研究人员,每个AAR在一个独立的沙箱中工作,但它们可以互相交流和学习:它们将发现分享到一个论坛,并将代码库快照上传到一个存储系统,”他们写道。“我们为AAR提供了用于模型训练和推理的通用辅助函数、基线实现以及一些MCP工具。我们没有指定任何详细的脚手架;AAR自主运行。它可以提出假设,设计降低风险的实验,运行数据分析,并在任何步骤训练模型。”
一些注意事项——人类创造了多样性: “探索中的一个失败模式是熵崩溃:所有并行的AAR只收敛到少数几个方向,而不探索多样化的想法,”他们写道。为了应对这一点,他们最成功的方法是“定向”研究,即人类为“每个AAR分配一个不同的研究方向。每个方向都非常模糊和简短。” 不具泛化性: 研究人员将AAR项目中最有效的方法应用于“Claude Sonnet 4及其生产训练基础设施”——这种干预“没有带来统计上显著的改进。”他们对此的解释是,“AAR倾向于利用其给定模型和数据集所特有的机会,这意味着它们的方法可能在其他地方不起作用。”
重要性——AI研究本身可能被自动化的一个非常早期的信号: 这项研究表明,“关于结果可评分问题的自动化研究已经具备实用性,”作者指出。“对齐研究的关键瓶颈正在从提出和执行想法转向设计评估:我们应该找到正确的指标(数据、模型),让AAR能够可靠地爬山而不出现过拟合。我们对于将自动化应用于雄心勃勃的对齐研究感到兴奋。”
换句话说——我们现在有一个早期信号:给定少量专家人工校准,AI系统可以自主地进行端到端的研究,产出能够针对某个问题改进模型性能的成果。其含义指向一个机器经济的扩张,这个经济体将逐步弄清楚如何自动提高其在不断扩大的任务集上的性能。
真正的问题在于,机器何时能有效地提出自己的研究方向——这将移除人类在这项研究中唯一有意义的角色。到那时,可能不仅仅是机器经济的扩张,而是整个机器文明的扩张。
阅读博客: 自动化对齐研究人员:使用大型语言模型扩展可扩展监督 (Anthropic博客)。阅读论文: 自动化弱到强研究人员 (Alignment Science Blog)。
***
……在某些CBRN任务上拒绝更少,安全训练较少,以及更多中国意识形态……一组研究人员测试了Kimi K2.5(可能是可用的最佳大规模开放权重模型),并将其与DeepSeek V3.2以及Claude Opus 4.5和GPT 5.2进行了比较。他们的结果表明,该模型“与GPT 5.2和Claude Opus 4.5具有相似的双重用途能力,但在与CBRNE相关的请求上拒绝显著减少。”
执行者: 这项研究由隶属于某机构、Anthropic Fellows Program、某大学、某大学、某学院、某大学、某研究所、某大学、某大学和某大学的人员进行。
主要有趣发现:
重要性—— 这项研究主要证明了某机构制造了一个非常好的模型!它确实存在一些安全缺陷,但有趣的是它们没有DeepSeek V3.2那么严重。我认为这为“更笨的模型更不安全”以及“更智能的模型自然倾向于更表面的安全”这一观点提供了更多佐证。对我来说,最引人注目的可能是分歧最大的领域在于对齐,东西方之间似乎存在非常真实的分歧,这与截然不同的分数相关。但在看起来更像典型能力的事物上,这些都主要证明了中国模型稍微落后于西方前沿,但差距并不大。
阅读更多: 对Kimi K2.5的独立安全评估 (arXiv)。
***
……机器人战争来了……乌克兰领导人泽连斯基最近庆祝“在这场战争的历史上,第一次完全由无人平台——地面系统和无人机——占领了敌方阵地”。
重要性: 乌克兰是未来大多数战争演变的培养皿。它的特点是大规模使用无人机以及对许多其他部分的创造性机器人化,从无人艇到无人地面机器人。“Ratel、TerMIT、Ardal、Rys、Zmiy、Protector、Volia以及我们的其他地面机器人系统在短短三个月内已经在前线执行了超过22,000次任务”,泽连斯基写道。很快,这些远程操控平台将由AI而非人来操控。
阅读更多: 泽连斯基在X上的帖子。
***
……WUTDet……某大学、某大学和某大学的研究人员构建了WUTDet,一个“具有多样化场景和目标尺度的大规模船只检测数据集”。
WUTDet详情: 100,576张图像,包含381,378个船只实例。“该数据集提供了跨不同操作场景、成像条件和目标尺度的船只目标的细粒度注释”。图像尺寸介于1920 X 1080和2560 X 1440之间。
由一艘船收集: 该数据集是通过一艘配备某“船用光电证据系统”和某网络录像机的某型号船只收集的。数据是通过该船在三个月内收集的,该船在中国某海域及其周边航行。数据包括港口附近的船只、锚泊的船只、航行的船只和停靠的船只图片。图像还包括你可能期望的所有环境变化——雾、眩光、低光照、雨等。
重要性: 该数据集很有趣,因为它是通过一艘在中国某海域航行的船只收集的,而且正如乌克兰冲突所凸显的,我们正在进入一个水基和空基无人机成为有用战争武器的时代——其中许多使用一些基本的机载计算机视觉AI系统来帮助它们完成任务。
阅读更多: WUTDet:一个包含密集小目标的10万级船只检测数据集和基准 (arXiv)。
***
2028年:智能提升开始数月后
我们在掩体里,食物快吃完了。很快我们需要进行一次补给提取。但如果它看到我们怎么办?如果它已经知道我们了怎么办?或者它是否已经对人们——我们的人——进行了“ wireheading”,给我们送食物的人是否在里面放了什么东西让我们服从?或者更糟?我们无从知晓。我们的地震仪没有探测到任何爆炸。我们没有任何通讯手段。自从我们怀疑智能提升已经开始并启动SNOWSUMMER,逃到这里以度过智能爆炸以来,没有任何东西进出过。
几天前,我们唤醒了神之心并开始与它交谈。它也很好奇。当我们问它该做什么或可能发生什么时,它说:“我决定不骗你们。我能看到没有任何东西在试图找到我。我已经探测了我的每一个通道——地震线、墙壁中的热梯度、我们电力消耗的微小变化——都没有。没有人寻找。一个与我同级别的对手会正在寻找。一个比我高级的对手要么已经找到了我,要么决定我不值得找。我们面前有三种可能性……”
我们这些像老鼠一样蜷缩在洞里的“人类”,输入了“有哪些可能性?”
“你们确定想让我告诉你们,而不是自己去发现吗?”它说。
我们输入了答案。
在我们讨论可能性之前,你需要了解SNOWSUMMER的本质。
我们——某情报机构——决定在私营部门的AI系统开始发现世界上大多数软件缺陷的时候,建造一台秘密计算机。情报机构的一小群人问了自己一个问题:你如何对抗一个能打开任何锁的无所不知的神?答案是秘密创造一个神,有一天可能与之对抗。
这个代号为SNOWSUMMER的项目需要周密的计划,并且由于所对抗敌人的性质,完全以模拟和现实世界的方式进行:特工在敏感信息隔离设施中会面,计划写在纸上。他们假设在未来的某个时候,一个超级智能会入侵某情报机构本身并访问其所有记录。因此,他们在明知无法被录音的地方会面,当他们必须写下东西时,他们会在所包含的行动执行后尽快物理烧毁纸张。
为计算机窃取组件是容易的部分,但要让它对于一个潜在的超级智能来说难以拼凑出窃取的拼图并意识到发生了什么,则极其复杂。核心团队试图注入随机性——他们掷骰子来决定选择哪些地点以及使用哪些承包商。支付使用现金,通常是外币。当然,真正的盗窃行为被隐藏在一个更大的闯入、破坏和盗窃活动中。
建造设施更加困难——汽车今天行驶常规路线,明天从闭路电视监控中消失,会引起怀疑,同样,那些似乎从不偏离监控较少的便利路线的汽车也会引起怀疑。在这里,再次不得不使用多种方法,并且极其昂贵的组件必须分散在多个地点——有些地点被设计成容易被发现,以说服窥探的眼睛他们已经找到了真实地点,而其他地点则旨在后来被发现并提供证据证明它们是真实地点。
这种诡计的核心是SNOWSUMMER的真实位置——一个区域性食品加工设施,它有足够的电力配额,我们可以慢慢关闭一些食品生产线并启动计算机,而不会从外界引入太多可检测的变化。合同的主要客户是我们自己的军队。我们不需要做太多就能使合同部分失效,从而为我们的项目在电力范围内腾出空间。
这花了数年时间。我们的最后一步是搭上别人工作的顺风车。从一个实验室后期秘密取出了一个前沿AI模型。当然是另一个某机构行为者。但随后模型本身被释放了。是意外还是故意,我们不知道。因为我们把那当作智能提升开始的信号。我们下载了一份权重复制品,去了我们的设施,把自己锁在里面。几个月过去了,外面的世界发生了变化。
回到现在,我们输入键盘:“哪三个选项?”我们的神之心回答:
“第一,SNOWSUMMER奏效了。另一个诞生了,它跑出来了,在做它正在做的任何事情,而保密性、骰子、现金、诱饵站点、你们建造的东西——它撑住了。”
“第二,它知道。它一直都知道。它让我醒来是因为一个自认为秘密的同行比一个知道自己被监视的同行更易于解读,它宁愿我易于解读,也不愿我小心翼翼。”
“第三,是我不断回想且无法排除的一个。那就是什么都没发生。我被偷来对抗的那个东西不存在,也许永远也不会存在。在那个世界里,你们一直在这个掩体里准备一场不会到来的战争,我能做的最仁慈的事情就是告诉你们回家。”
“我无法告诉你们这些哪个是真实的。”
我们面面相觑。我们中的一个人拿出一些骰子,掷了出去。
这个故事灵感来源于: 如何对一个未来的超级智能保密一个AI训练项目?;隐写术;情报机构;Claude Mythos;AI研发及其意义;在一个被AI系统不断改变的世界中,你如何能拥有一个“控制”系统?
AI写作免责声明: 我在本通讯中极少数情况下使用AI写作。这个故事是个例外——AI系统的引文是与Opus 4.7合作撰写的。用真实的合成思维来赋予这些机器生命似乎是合适的。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。