首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >文远知行携手腾讯云存储探索 AI 存储成本、性能与效率最优解

文远知行携手腾讯云存储探索 AI 存储成本、性能与效率最优解

作者头像
云存储
发布2025-12-24 16:19:48
发布2025-12-24 16:19:48
1500
举报
文章被收录于专栏:腾讯云存储腾讯云存储

引言

为帮助更多 AI 从业者、企业决策者在数智化转型中,做出更好的业务决策,腾讯云联合 InfoQ 发起了「InfraTalk」直播 IP 系列,聚焦云基础设施的技术演进与产业价值,邀请行业分析师、企业实践者与云厂商共同探讨 AI Infra 的能力框架、落地路径与未来趋势。

在第三期「模型训推需求升级,AI 存储如何解题」的圆桌直播中,腾讯云存储研发总监程力、文远知行存储系统负责人黎伟杰,以及弗若斯特沙利文分析师宋安琦,从应用实践、技术架构与行业趋势三个维度,系统解析在 AI 业务加速落地的背景下,AI 存储兼顾成本、性能、效率构建企业级基础设施。

1 AI 落地时代的存储大考

随着 AI 在各行业加速落地,传统云存储正面临前所未有的压力。

辅助驾驶、智慧城市、医疗健康、具身智能等重数据行业推动了非结构化数据的快速膨胀;多模态训练、在线推理和数据挖掘等复杂场景,对吞吐、延迟与数据结构的要求日益提升,使得存储系统在性能、架构和治理层面全面承压。

最先暴露的是性能瓶颈。企业需要同时处理大规模原始数据的高吞吐写入,以及训练场景中对随机读取和低延迟的极致要求,这种“极端混合负载”让原本面向小 I/O 优化的传统架构难以为继。

随之而来的是成本与资源优化压力。 存储介质价格普遍上涨,资源供应紧张,企业亟需通过热存与冷存分层、精细化资源规划等手段实现高效利用。算力侧通过专用芯片和集群调度持续降本增效,此时若存储侧仍采用全热存 / 全闪存等粗放策略,将迅速形成 TCO 瓶颈。

数据治理也变得更复杂。多租户架构需要在保证核心业务的同时进行细粒度资源隔离;跨地域、跨云部署则要求数据在不同法规体系下仍能高效流动。

AI 计算与存储的规模,使得堆卡不再现实,系统对软件质量、性能可靠性和管理能力都提出了前所未有的严苛要求。

在压力倒逼下,存储技术本身也开始向新轨道演进。

最显著的趋势是,存储正从数据堆放点转变为数据治理的关键环节。 面对海量、多模态与异构数据,传统以计算端为核心的数据治理方式已难以满足 AI 对上下文精准匹配与快速处理的需求。存储侧治理正在崛起,通过构建统一命名空间、引入 AI 自动提取元数据及多模态向量索引等技术,实现从“找到数据”到“快速找准数据”的转变。

与此同时,缓存加速技术正沿 AI 场景需求深入演进。 优化利用资源成为企业的关注重点,极简架构和“显存 + 内存 + 存储”的三级缓存体系,减少了 IO 路径和重复计算。目前,这些能力已经在多轮对话等典型场景中体现成效,未来有望成为存储底座的支撑。

存储的数据安全管理升级更加急迫。 面对数据泄露来源更加分散、链路更加复杂的现实,企业不仅需要传统的访问管理,更要能识别“看不见的协作风险”。领先企业已开始引入 AI 驱动的敏感数据监测服务,实现智能告警与自动响应,同时通过零信任架构、最小权限管理、WORM 防篡改等措施,保障数据从接入到使用全流程的安全可控。

AI 的全面落地正在将存储从一个被动的容量提供者,推向具备治理能力、性能优化、安全保障与工程协同的主动式基础设施。它不仅承载数据,更参与业务与算力的联动,成为 AI 规模化落地的不可替代的底层支持。

2 存储焦虑下,规划存储体系的方法论

AI 存储的投资需要建立合理的价值评估方法,和贯穿数据全生命周期的规划。

AI 存储的价值评估

一个合理的评估方法,至少应覆盖性能、资源效率、数据价值和可靠性四个维度:

  1. 系统性能维度:关注吞吐带宽、IOPS、端到端读写时延、并发客户端数等决定 GPU 利用率低核心指标;同时需考察整体吞吐量和带宽利用率。
  2. 资源效率维度:关注有效容量压缩、去重比、存算比和空间膨胀比(物理存储容量 / 逻辑数据大小)等具体指标
  3. 数据价值维度:分析各项目的空间使用趋势和冷数据占比,判断数据真实价值,指导采购和扩容决策。
  4. 可靠性维度:关注可用性、故障恢复时间、数据完整性校验和多租户隔离能力。

全生命周期规划

基于清晰的评价指标,企业才能规划不同阶段的存储建设目标。

早期,业务核心是快速验证模型,满足核心训练需求,稳定且高性能的存储系统是首要投资标准。

随着推理服务和 Agent 应用上线,企业需要关注以存代算、数据编织等提升推理效率的技术,通过更聪明的数据组织方式减少算力浪费、降低成本。

在长期规划中,企业必须面对数据规模的指数级增长,布局具备百 EB 级扩展能力、支持跨域治理的湖仓一体架构,为未来 5~10 年的数据洪峰预留空间。

在数据增长与成本控制之间找到平衡,是 AI 存储的普遍难题。腾讯云与文远知行的观点提供了两条互补路径。

从能力发展的角度看,程力认为,中国企业正处于数据爆发的早期阶段,“保证有地可存”比“过度优化”更紧迫。如果过早因为成本焦虑而人为压缩数据规模,会在未来模型迭代中失去宝贵资产。因此,企业应提前规划容量上限,并构建可持续扩展的底层架构。

从具体业务的角度看,黎伟杰表示,公司的 AI 存储焦虑不在性能上,而是在“存不起、买不起的经济担忧。”他表示,内部没有把希望寄托在硬件的降价,希望通过软件升级、数据策略来缓解焦虑。文远知行的策略是利用智能分层把数据放到相应成本池、利用混合云存储架构缓解突发的存储压力,以及把存量存储转化为高价值存储,提高数据利用率。

总的来说,AI 存储的长期规划依赖两项核心能力:一是前置规划的能力;二是通过软件和架构优化提升资源利用效率的能力。

前者决定企业在数据洪流中能否有地可存,后者决定在成本曲线不断抬升的背景下,是否能够用得高效、存得经济。

3 文远知行需要怎样的 AI 存储系统支撑?

作为一家全球化运营的自动驾驶公司,文远知行提供了一个清晰的样本,展示了在存储焦虑下,如何基于真实业务场景构建 AI 存储体系。

作为业务覆盖全球十余个国家、三十余座城市的自动驾驶企业,文远知行需要处理来自不同运营区域、不同车型、不同传感器的数据洪流。为支撑近乎全天候的混合业务架构,公司构建了以广州与硅谷为核心的自建数据中心,并深度整合腾讯云等云厂商资源资源,形成一个可扩展的混合云体系。

当数据规模跨入 PB 级别后,传统的“存得下、跑得快”已不足以描述自动驾驶企业的真正需求。文远知行必须回答两个更深层的问题:

第一,如何在性能与成本之间为海量数据找到动态最优解?

第二,如何在成百上千个并发任务中管控资源边界,使核心任务不被拖慢?

为解决这两个问题,文远知行自研了对象存储系统 WeRide File System 和高性能分布式文件系统 LightningFS。

WFS 承载了公司全部原始数据及海量温冷数据,其定位已超越简单扩展存储空间的阶段,演进为一个智能数据调度中心。

WFS 强大的冷热感知机制,能依据数据使用频率和访问规律自动执行分层策略:热数据保留于本地高性能存储池,温数据转存至本地低成本资源池,极低频的冷数据则自动迁移至公有云对象存储 COS 的低频或归档存储中。这一机制有效突破了物理边界,将公有云转化为可无限扩展的“数据冰柜”,而所有数据流动对上层业务完全透明,业务侧始终访问统一的文件索引。

LightningFS 部署于计算最密集的区域,直接服务于 GPU 集群,其核心使命是确保算力被高效利用、资源被公平管理。LFS 通过优化元数据引擎与缓存架构,确保即使在高并发随机读取场景下,延迟仍可控制在微秒级,持续提供高 IOPS,避免 GPU 因数据等待而闲置。

通过自建数据中心与自研存储系统,并与腾讯云对象存储 COS 合作构建混合云架构,文远知行持续探索 AI 存储的成本、性能和效率最优解,也成为重数据场景中落地 AI 存储体系的标志性案例。

从企业实践视角看,自动驾驶等重数据行业对 AI 存储的未来发展还提出了更具体的需求。

文远知行存储系统负责人黎伟杰指出,行业期待从三个维度实现突破:

从“被动存储”到“主动智能”。被动存储,指不知道存入的文件对于业务来说意味着什么,基于简单的规则来做数据治理。希望未来存储能理解数据的业务价值,如自动识别高价值 Corner Case 并提升其存储优先级,实现基于价值的动态资源分配。

从存算割裂,走向透明化的统一编排。目前计算集群和存储集群往往是物理隔离的,做任务编排时调度器不知道数据在哪里,需要工程师人为判断和搬运,效率很低。希望未来借助统一命名空间实现存算协同调度,用户不用担心数据存放在本地 IDC、公有云还是边缘站点,计算调度层能深度自动化,把任务给编排到离数据最近的集群。

从单点数据中心,到全球数据联通。打破目前因政策、网络或管理因素造成的多数据中心+多云区域孤岛,建立一套可统一调度、高速且合规的跨域数据通道,使数据在任意站点之间能像本地一样高效流转,减少复制延迟和运维复杂度。

4 腾讯云如何打造场景化的 AI 存储服务

文远知行的实践展示了存储如何精准匹配业务需求,而腾讯云要做的,正是与客户深度合作,将这类经验沉淀为可复用的平台能力,为各行各业提供更成熟、更实用的 AI 存储解决方案。

腾讯云存储研发总监程力表示,随着 AIGC、辅助驾驶、具身智能等新兴场景的迅速扩张,企业对存储系统的要求已从传统的容量与基础访问能力,提升至对海量数据统一管理、多样化数据整合、大规模数据处理、数据治理,以及整体成本与效率的全链路需求。在这些变化推动下,AI 场景为存储带来了前所未有的挑战,也形成了新的发展空间。

在此基础上,腾讯云构建了以对象存储为底座的 Data Platform 数据平台解决方案。对象存储 COS 作为数据统一存储底座,承载训练数据、预处理数据及多模态数据;并推出数据加速器 GooseFS,提供缓存加速与数据流动能力,同时兼容 POSIX、HDFS 等协议,满足数据湖、湖仓一体及海量小文件读取等场景需求。

平台还整合数据万象及其智能检索能力,提供多模态数据处理、合规审查、安全审核、以图搜图及向量检索等能力,用于支撑企业的数据治理与检索需求,推动各行业向智能化升级。

面向高性能存储场景,腾讯云 GooseFS 提供包括缓存加速、并行文件系统,以及将 S3 语义转换为 POSIX 语义的轻量网关 GooseFS MountPoint。对象存储层则通过元数据加速与数据端加速技术,实现多层级性能提升。对象存储层则通过元数据加速与数据端加速技术,实现多层级性能提升。

程力强调,在汽车辅助驾驶等典型 AI 场景中,腾讯云已将高性能缓存和智能检索能力深度融合。例如,通过 GooseFS + MetaInsight,可实现跨桶、跨路径的数据染色与 Asset 级管理,上层业务不再受限于传统对象存储的路径与桶结构。不同任务可就近拉取数据,大幅提升 GPU/CPU 的利用率,同时支持多任务并发时的灵活调度。

凭借在 AI 存储技术、方案可靠性与生态构建方面的持续领先,腾讯云收获了包括文远知行在内的行业头部客户,也被弗若斯特沙利文评为 AI 存储解决方案领域的行业领导者。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云存储 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档