

HN 今天讨论的是这篇 :《Has Google quietly solved two of AI’s oldest problems?》——一位搞历史的学者在 Google AI Studio 里碰到一个“神秘模型”,声称它几乎完美地识别手写文档,还展现出类似“符号推理”的能力,被不少人猜是待发布的 Gemini 3 Pro 的内部 A/B 测试版。(36K.EU)
原文作者是加拿大历史学者 Mark Humphries,他干的不是“写小说测 AI”,而是很“苦力”的工作: 用 AI 帮忙转录 18 世纪、19 世纪的账本、信件等手写档案。

(源:https://generativehistory.substack.com/p/has-google-quietly-solved-two-of)
几个关键背景:

(源:https://generativehistory.substack.com/p/has-google-quietly-solved-two-of)原文给出的指标是:这个新模型在复杂历史手稿上的 **字符错误率 CER ≈ 0.56%,词错误率 WER ≈ 1.22%**,基本接近甚至超出专家级人工抄写。
在 HN 里,有人一看就坐不住了,因为自己的需求跟他几乎一模一样:

(源:https://generativehistory.substack.com/p/has-google-quietly-solved-two-of)
也就是说:“历史手稿 / 生活手写记录 + AI” 这条线,在现实中已经有人跑通了,只是之前体验还停留在“能用但费心纠错”的阶段。
原文里最吸睛的例子,是一页 1758 年纽约 Albany 商人的账本:
“To 1 loaf Sugar 145 @1/4 0 19 1”
大致意思是:买了一块糖锥(sugar loaf),单价 1 先令 4 便士,总价 0 英镑 19 先令 1 便士。问题是中间那个“145”写得极其模糊,看起来既像 145,也像 14.5,甚至 1.45。

普通模型容易犯的错包括:
而 Humphries 声称,这个新模型做了几件“很不像传统 OCR 的事”:(36K.EU)
换句话说,它不仅看懂了字,还:
这就是为什么原文会把这事上升到:
Google 可能同时在一个模型里 跨过了“手写识别”和“符号推理”两个老难题。(36K.EU)
说回 HN,大家对“Google 是否解决了符号推理”这顶高帽,非常警惕。
一派认为,这依然可以理解为:
在超大训练语料 + 强模型容量下,统计模型近似出了一种“伪推理”行为,并不需要承认它“真正理解”了什么。 典型的观点包括:
他们会强调:
另一派则反驳:
有人援引 Ilya Sutskever 的类比:(Hacker News)
想象一本推理小说,结尾是一句“凶手是:X”。 如果模型只是“下一词预测机”,它是怎么把前面所有线索综合起来,给出正确的名字的?
在这个视角里,“下一个词预测”只是接口(interface),里面实际发生的是:
但这派人也未必乐观到接受“AGI 近在眼前”,更多是说:
“用纯统计的眼镜去否认一切‘理解’迹象,已经解释不动现在的模型了。”
另一条支线争论的是:
我们现在感受到的“模型越来越会推理”,到底是技术进步,还是人类的叙事升级?
有开发者提到:(Hacker News)
评论区有人反驳说:“你每一代都说‘上个预览更强’,听起来更像认知偏差。” 也有人回击:
“推理模型跑得贵是真事,量化 / 蒸馏 / 限速同样是合理解释,不必都归因于错觉。”(Hacker News)
还有人吐槽原文本身:
这反映了 HN 一贯的敏感点: AI 故事里,案例永远比系统性评测更容易走红,但工程师需要的是后者。
从一线经验看,这次讨论有几类很有代表性的“金矿”式用法:
也有人给泼冷水:
原文顺带提到一句:“有人说这个模型可以一口气写出 Windows / macOS 克隆、3D 设计软件、任天堂模拟器、效率套件……” 这段在 HN 被集体翻白眼。
几条典型吐槽:
更严肃一点的看法是:
这也是为什么有人质疑:“在现有 corpora 上 interpolate 出来的东西,到底算不算‘真正的创新(novel)’?” 底下还有一整串关于“什么叫新颖”的哲学扯皮。
1. 手写识别这条线,确实在悄悄跨代升级。 从多个用户的实测来看,不管这个神秘模型是不是 Gemini 3,Google 在 AI Studio 里的 HTR 能力已经远超一年前的主流水平——至少在“看得清的前提下,识别几乎不出错”这一点上,已经非常实用。
2. “符号推理”可能正在以一种不那么“正统”的方式被解决。 没有专门的逻辑模块,没有规则引擎,纯 Transformer 堆出来的模型,开始在真实任务中表现出:
这是否等同于“理解”,可以吵很多年,但从工程角度,你能越来越多地把它当作“会自己查账的助手”。
3. 但我们很容易被“好故事”带跑。 一两段惊艳示例 + “也许是里程碑突破”的标题,非常适合在 X / Substack / 媒体传播,却不等于:
HN 的集体本能是:先假定这是 cherry-pick,除非你拿出系统实验。
4. 对普通人和研究者,态度大概应是:大胆用,小心信。
如果 Humphries 看到的东西真的是 Gemini 3 的一角,那也许这篇 Substack 真不是在夸张:
我们可能见到的是 —— 机器从能“看懂人写的字”,走向开始“替人算账、查错、提解释”的那个转折点。
离“通用智能”还有多远没人知道,但至少有一个方向明确了: 只靠“这是下一个词预测机”这句口头禅,已经不够解释今天的模型了。