在上文OpenAI新发布的o3-mini与DeepSeek R1全面对比我们提到o3-mini价格相较o1削减了15倍左右,逼近DeepSeek R1的两倍价格,最终定价每百万输出4.4刀。
那么如何做到的呢?像DeepSeek一样进行工程优化吗?看起来并不是,而是采用新的硬件。OpenAI CEO Sam Altman在o3-mini发布前发了一条推文。
这表明微软引入Nvidia 8机架的GB200 NVL72,并成功运行o3-mini。
NVIDIA GB200 NVL72 是一款高性能计算解决方案,旨在提升人工智能(AI)和数据中心的能力。它将 36 个 Grace CPU 和 72 个 Blackwell Tensor Core GPU 集成在一个液冷的机架级架构中,形成一个统一的 72-GPU NVLink 域,整体表现如同一个巨大的 GPU。
主要特点:
• 增强的 AI 性能: GB200 NVL72 提供高达 30 倍于上一代产品H100的实时大型语言模型(LLM)推理速度,能够高效处理万亿参数模型。
• 加速训练: 配备支持 FP8 精度的第二代 Transformer 引擎,可实现大型 AI 模型训练速度提升至 4 倍,意味着新模型的训练发布周期将会缩短到以周为单位。
• 能源效率: 采用液冷设计,不仅提升了性能,还提高了能源效率,与 NVIDIA H100 相比,能源性能提升高达 25 倍。
• 先进的互连技术: 利用第五代 NVIDIA NVLink 技术,系统提供每秒 1.8 TB 的 GPU 间互连带宽,确保 AI 和高性能计算工作负载所需的低延迟通信。
总结
按照之前泄漏信息,GPT 4o系列是6*220B MoE架构,也就是1.8T参数量的模型。那么合理推测o3-mini可能是在4o-mini上训练出来的,不知其参数量是否也要远高于DeepSeek的680B?