
• 报告标题:基于第五代英特尔®至强®可扩展处理器的新一代腾讯云服务器加速乐元素游戏AI推理
• 发布机构:英特尔、腾讯云、乐元素
• 发布时间:2024年
• 行业标签:游戏
• 产品标签:#腾讯云实例 S8, #第五代英特尔®至强®可扩展处理器, #英特尔®高级矩阵扩展(英特尔®AMX), #英特尔®oneAPI, #英特尔®深度神经网络库(英特尔®oneDNN)
乐元素在《开心消消乐》等游戏的运营中,每日需处理超过 1亿次 自动打关任务和 30亿次 模型推理,AI技术的深度应用带来了严峻的算力挑战。本报告旨在验证基于第五代英特尔®至强®可扩展处理器的新一代腾讯云实例S8,在应对游戏AI推理场景时,于性能、成本及灵活性方面的表现。通过硬件升级与软件栈优化,该方案致力于为游戏企业提供高回报率的AI基础设施升级路径。
• 概述
• 挑战:AI模型推理需要强大的算力作为支撑
• 性能挑战
• 成本挑战
• 灵活性挑战
• 解决方案:基于第五代英特尔®至强®可扩展处理器的腾讯云实例 S8
• 性能验证:实现显著的代际性能提升
• 自研打关模型
• 消消乐新春扫龙字活动
• 收益
• 展望
• 关于乐元素
• 关于腾讯云
• 关于英特尔
• 研究方法:采用对比测试法,基于乐元素内部业务场景(自研打关模型、ResNet-50图像识别),在腾讯云S6(上一代)与S8(新一代)实例间进行性能基准测试。
• 测试配置:
• S8实例搭载第五代英特尔®至强®可扩展处理器,内存采用DDR5,支持英特尔®AMX加速技术。
• 测试涵盖FP32(AVX512指令集)与BF16(启用AMX加速)两种精度模式。
• 软件栈:使用英特尔® oneAPI工具套件及英特尔® oneDNN深度神经网络库进行底层优化。
• 数据来源:乐元素截止至2024年2月的内部测试结果;天风证券研究报告(人力成本预测部分)。
• 调研对象:乐元素《开心消消乐》业务线,涵盖关卡验证、图像识别等具体AI推理负载。
• 痛点描述:
• 算力瓶颈:随着游戏内容扩充,每日 30亿次 的推理需求对服务器单核性能提出极高要求。
• 成本压力:部署专用AI服务器(如GPU)会增加运营负担,亟需寻找兼顾性能与成本的通用算力。
• 灵活性不足:游戏运营需快速适应不同模型(如打关模型、视觉识别模型)的推理切换。
• 解决方案与洞察:
• 硬件代际升级:腾讯云实例S8较上一代S6整体性能提升 23%(数据来源:乐元素2024年2月内部测试)。
• 内置AI加速:利用第五代英特尔®至强®处理器内置的 英特尔® AMX 技术,无需独立加速器即可处理AI负载。在自研打关模型中,启用AMX(BF16精度)后,推理性能较S6(FP32)提升 3.44倍;在ResNet-50场景中,性能提升 5.19倍。
• 软件优化:通过英特尔® oneDNN库优化矩阵乘法运算,降低编程复杂度的同时,显著提升算子执行效率。
• TCO优化:通用CPU架构避免了专用加速器的采购成本,且支持按需扩展,有助于提升AI战略的投资回报率。
• 技术架构先进性:腾讯云实例S8基于全新优化虚拟化平台,搭载第五代英特尔®至强®可扩展处理器与DDR5内存,默认网络优化,最高内网收发能力达 4500万pps,最高内网带宽支持 120Gbps(数据来源:腾讯云官方文档,2024年3月访问)。
• 性能验证表现:在游戏AI推理这一特定高负载场景中,S8实例展现了显著的代际性能优势,能够稳定支撑日均亿级规模的推理任务。
• 生态融合能力:腾讯云依托腾讯内部多个人工智能实验室,将AI能力与云基础设施深度融合,通过公有云方式提供灵活接入,助力客户实现业务智能化升级(引用自 许华彬,腾讯云副总裁)。
• 基础设施规模:腾讯云基础设施覆盖全球五大洲26个地理区域,运营70个可用区,全球服务器数量超过 100万台,具备强大的资源调度与覆盖能力。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。