随着最新人工智能(AI)模型的发布,DeepSeek这家相对低调的中国公司,已经对美国多年来试图遏制中国创新的政策造成了巨大冲击,并且在这个过程中,让从英伟达(Nvidia,美国的AI芯片冠军)到西门子能源(Siemens Energy,数据中心电气设备制造商)等公司的估值出现了漏洞。通过展示其在绕开美国出口限制方面的创新能力,DeepSeek引发了人们对获取大量尖端半导体及相关设备在训练AI模型时重要性的怀疑。
这一切的核心人物是梁文锋,DeepSeek的40岁创始人。目前尚不清楚他是否享受自己引发的全球市场动荡。据当地媒体报道,梁文锋最近在家乡度过春节,对大多数人来说他仍然是一个谜。与DeepSeek有过业务往来的人表示,梁文锋痴迷于类似人类的人工通用智能(AGI)及其对世界可能产生的影响。在他的追求中,DeepSeek的创始人正在颠覆西方和中国对技术进步的看法。
梁文锋出生于1985年,来自广东省湛江市附近一个贫困村庄的教师家庭,他是一位天赋异禀的学生。一位前导师声称他在中学时就掌握了大学级别的数学。2002年,他考入位于东部城市杭州的浙江大学,攻读电子信息学位。在该校攻读硕士学位期间,他师从一位知名机器视觉科学家,接触到了人工智能领域。
当时,杭州是互联网技术的繁华中心,也是阿里巴巴等新兴公司的所在地。梁文锋和几位同学留在了这座城市,开始尝试量化投资模型,这种模型不依赖于公司基本面,而是依赖于处理大量数据。2013年,梁文锋和三位同学创立了一家名为 “雅克比” (Yakebi)的投资集团,试图将其构建的交易模型商业化。
两年后,梁文锋联合创立了High-Flyer,一家量化对冲基金,与数十家类似公司一起迅速发展。2021年,该公司声称管理着高达1000亿元人民币(约合140亿美元)的资金,尽管在那一年下半年其规模似乎迅速缩小。
DeepSeek的起源可以追溯到High-Flyer改进其算法的努力。2019年,该公司投资2亿元人民币成立了一个独立部门,开发自己的深度学习平台“Fire-Flyer 1”。2021年,该基金投入10亿元人民币,利用英伟达的1万个A100图形处理单元推出了第二代产品。这使得High-Flyer成为一个特例:当时,中国只有四家公司拥有如此强大的芯片库,且均为科技巨头。DeepSeek于2023年成为一家独立公司。该公司于去年5月首次对市场产生冲击,当时它发布了一款基于其V2模型的超低成本聊天机器人,引发巨大关注。
梁文锋表示,降低成本并非是为了吸引更多用户。2023年7月,他提到随着DeepSeek探索新的模型结构,成本自然下降,这使其与其他公司区分开来。尽管其他中国AI公司也在进行模型研究,但由于美国出口限制导致的计算能力不足,它们更多地专注于开发使用该技术的智能应用。许多中国AI公司以Meta开发的Llama系列大语言模型为基础构建应用。
梁文锋认为,使用更少的计算能力开发模型是他实现长期目标的关键一步。“我们的目标是AGI,这要求我们探索新的模型结构,以在有限的资源内实现更强大的能力”,他曾在接受本地媒体采访时表示。
DeepSeek的新R1模型震惊了西方,表明其正在取得进展。该公司表示,其训练成本不到600万美元,仅为OpenAI等公司类似模型的一小部分。OpenAI的老板山姆奥特曼称R1“令人印象深刻”,尽管他也承诺将推出“更好的模型”,并表示“有新的竞争对手是令人振奋的”。
尽管如此,DeepSeek仍有其怀疑者。早期测试似乎证实了R1的性能确实如其制造商所说的那样强大。但有人质疑该公司是否低估了开发模型时使用的高端芯片数量,尽管其他人认为其说法是可信的。还有猜测称,DeepSeek可能通过研究美国模型的结果来训练其模型,这一过程被称为“蒸馏”。OpenAI声称有证据表明DeepSeek违反其服务条款进行了模型蒸馏。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。