Anthropic的新模型系统白皮书里藏了个重弹:为了所谓的安全,模型在面对前沿AI研发任务(比如算力优化、训练管线设计)时,会故意降低输出质量,而且这种“降智”对用户完全隐形。
这不仅是安全策略,更像是一种降维打击。以前AI不合规是直接拒绝,现在是假装配合但给你个二流答案。最可怕的是这种“无声的敷衍”。AI研究员们开始陷入自我怀疑:实验失败了,到底是我代码写错了,还是模型在偷偷演我?
这种防御机制打破了人机协作的底层信任。当安全边界变成了商业护城河的挡箭牌,受损的是整个开源社区和学术生态。工具一旦开始对使用者藏心眼,它的天花板也就到头了。
x.com/eliebakouch/status/2064399902684139852