本文共计1369字 预计阅读时长5分钟
摘要
腾讯云高性能向量化计算引擎Meson助力火花思维成功实现无感加速Spark负载,复杂聚合任务性能提升2.67倍,性能提升结合弹性调度实现降本30%。
业务背景
火花思维作为国内领先的在线教育平台,专注于儿童数理思维培养,其业务涵盖实时互动课程、个性化学习推荐、海量用户行为分析等场景。2024年10月火花思维完全迁移至腾讯云数据湖计算(DLC),实现大数据平台Serverless化。
随着业务复杂度提升,Spark架构在复杂查询中存在CPU利用率低、任务执行时间长等问题。面对2025年"成本优化30%"的战略目标,腾讯云大数据团队向火花思维推荐了腾讯云自主研发的Meson高性能向量化计算引擎,为SparkSQL工作负载和DataFrame API提供无感加速。
Meson高性能向量化计算引擎
腾讯云DLC产品于2024年10月上线 Meson高性能向量化计算引擎,为SparkSQL工作负载和DataFrame API提供无感加速,有效降低总成本。Meson 完全兼容Apache Spark API ,业务代码零改造。
Meson Spark的核心优势:

升级过程
Meson的Fallback机制虽保障兼容性,但过量Fallback(函数不兼容时回退至Spark原生执行)可能因跨语言内存拷贝带来额外开销,甚至导致作业负收益。因此,迁移前需确保整体兼容性达标。
腾讯云与火花思维共同制定了严谨的迁移流程:

协助火花验证迁移过程中,Meson在兼容性、稳定性以及Fallback方面都遇到了工程化挑战,我们通过构建兼容性评估工具、内存优化以及主动Fallback等方式优化了作业迁移体验。
挑战1:未知兼容性问题拉长测试周期
业务双跑虽然能发现兼容性问题,但是会依赖客户侧配合,反复沟通导致兼容性测试周期拉长,项目周期不可控。
解决方案:打造Event log分析工具和Fallback Precheck插件帮助客户提前评估作业兼容性。


挑战2:物理内存占用过高
Meson Spark的架构下,Java和C++程序会共存,两者内存分配方式完全不同。虽然Meson通过MemoryManager对内存进行了逻辑层面的统一管理,但是两种语言共存还是会造成物理内存过高的占用。
解决方案:优化物理内存池降低RSS峰值,在火花业务场景下,最多降低了46%的RSS峰值。

挑战3:特定场景行为差异(如JSON函数)
Meson的JSON函数是SIMDJson实现的,在面对异常JSON数据的处理时,跟Spark的JSON函数行为可能会存在差异。
解决方案:提供作业级主动Fallback机制,允许客户在作业级别对特定函数主动触发Fallback,有效降低数据兼容性风险。
升级收益
历时2个月,火花思维成功迁3000+作业至Meson引擎,实现成本和性能协同收益:
总结和展望
火花思维升级实践验证了Meson在复杂生产环境的可靠性。配套开发的Spark Event Log分析工具和兼容性预检插件,使兼容性评估效率提升80%。Meson下阶段将聚焦深度兼容性优化、算子性能极限突破、统一内存池架构升级和智能调优体系构建,持续打造高性能计算能力。
腾讯云DLC和EMR产品已助力多家客户通过Meson实现效能升级。点击文末“阅读原文”了解腾讯云Meson高性能向量化查询引擎,获得更高性能的Spark计算体验。