首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【专家说】方天戟:从LLM普惠浪潮到混合云重构,揭秘“十五五”智算云选型

【专家说】方天戟:从LLM普惠浪潮到混合云重构,揭秘“十五五”智算云选型

作者头像
腾讯专有云
发布2025-08-06 08:10:46
发布2025-08-06 08:10:46
2180
举报
文章被收录于专栏:腾讯专有云腾讯专有云

——专有云平台架构与技术选型方法探讨

专家介绍:方天戟

腾讯专有云TCE专家架构师、《大模型时代基础架构》作者、《云鉴》编写组成员,参与多项行业与国家标准制定。

曾服务于华为、Juniper、H3C等知名企业,为BMW、航天科技、中国建筑、环球影城等业界头部企业设计落地过上云整体方案。

2025年,是成果辉煌的“十四五”收官之年,更加美好的“十五五”在向我们走来,已是触手可及。开篇之际,Deepseek等新一代大语言模型(LLM)技术横空出世,伴随全球科技与供应链领域的激烈博弈,以及一系列“黑天鹅”级信息安全事件,行业对企业基础架构建设的思考与共识迅速形成。

本篇我们特邀腾讯专有云TCE专家架构师——方天戟,为您深度解读这场变革:从本地化LLM部署,到云边协同管理,再到软硬件供应链安全与平台高可用,每一步选型背后,都是抵御风险、捕捉机遇的关键抉择。

跟随对话,一起探寻智算云时代的破局之道!


在经历了LLM技术爆发、全球供应链博弈与多起安全事件的冲击后,业界对企业基础架构建设达成了哪些核心共识?能否具体谈谈其中的趋势?

LLM成为普惠技术

首先,本地化部署基于LLM的生成式AI,成为了帮助企业提升经济效益的重要手段之一。基于麦肯锡2025年的最新研究报告,生成式AI每年可为全球各行业贡献2.6~4.4万亿美元的价值。而本地化部署LLM,除了帮助企业优化创新效率,加速AI应用落地,提升经济效益以外,还可以确保数据安全,满足合规要求,以承担企业应有的社会责任。这就需要企业在建设专有云基础设施时,充分考虑LLM推理、微调与本地知识库等需求,建设具有融合AI与LLM能力的智算云。

边缘云与混合云重塑IT基础架构

其次,混合云与分布式云环境将对IT基础架构进行重塑。Gartner Research指出,以云边协同、公私混合等技术为代表的混合云技术,在数据安全、延迟性能、可扩展性与合规风险等方面,与其他部署方式相比,有显著的优势。对于企业而言,如果能够统一管理总部数据中心的云平台与各工厂等远端分支的本地资源,能够显著提升IT管理效率,节约差旅和人力资源等成本。

业界日益重视软硬件供应链安全

再次,在全球形势不确定性的背景下,IT供应链安全将成为基础设施建设的关键因素。近年来,AMD Zen5微码漏洞、Log4j漏洞、某著名硬件厂商被质疑存在可远程关闭的后门等一系列软硬件供应链方面的安全漏洞事件,在业界造成了深远影响。企业在选择云平台软硬件等核心IT基础架构产品时,也需要充分考虑软硬件供应链安全问题,运用底线思维,将风险防范措施前置。

平台安全与高可用性成为一票否决项

此外,近年来一系列安全“黑天鹅”事件,也促使业界对IT基础架构的安全性和可靠进行了更深入的反思。一些全球知名的云服务商出现过核心域名被劫持、认证鉴权系统更新错误、机房消防设施失效、可用区网络中断等故障,对云上业务,甚至一些与国计民生强相关的业务运行造成了严重影响。究其原因,是因为云计算平台的出现导致一些故障的影响被放大。这些事件令企业的CIO们不得不对企业基础架构设施供应商的各考量标准进行重新排序,将安全稳定这一因素放在了更高优先级的位置。

针对以上趋势,专有云平台架构与技术选型时,企业应该重点关注哪些维度?

在这些趋势的驱动下,选型时主要看这四大维度

AI 与云的深度融合

传统的云计算平台,所调度的资源一般是CPU计算与内存资源,及传统的块存储、文件存储和对象存储资源,而智算平台调度的资源以GPU资源为主,辅以RDMA智算网络的管控。由于Deepseek为代表的新一代LLM私有化部署的普及,特别是基于LLM实现的智能体等技术迅速发展,传统应用与云原生应用的 AI 融合将成为数字化转型的关键。

为此,云平台需一体化调度 CPU、GPU 等异构计算资源,并为云原生应用提供统一支撑,才能高效部署私有化 LLM、构建 AI 智能体,并将 AI 无缝嵌入工作流,实现降本增效。

分布式云与云边一体

对于大中型政企、金融及公共事业用户,除总部之外,往往还有本地化甚至全球范围内的分支机构,这些分支需要本地化的IT应用对业务进行支撑。这对于IT基础设施建设与运维带来了人员成本和SLA方面的挑战。

如果用户选用的云计算平台具备云边一体的管理能力,能够在中心云统一管理各分支机构的边缘节点,并且能实现边缘节点的自治,边缘侧应用的运行,不依赖云与边缘之间网络的连通性,就可以大大节约运维与管理的成本,让用户IT部门在绝大部分场景下无需派遣工程师奔赴分支机构驻地工作,有效提升人均工作效能。

软硬件开放性与中立性

目前大多数云计算平台已能兼容 Intel x86,也有部分开始支持 C86 和 ARM 架构。但在资源池跨代扩容、跨架构兼容、多厂商服务器与网络设备兼容、配置灵活性,以及新型异构计算适配等方面,仍或多或少存在问题。更有厂商将自家服务器和网络设备与平台深度绑定,令用户在后续扩容时只能单一采购该厂商硬件,从而对供应链安全构成严重挑战。此外,还有部分厂商的云平台提供了微服务、中间件、数据库和大数据等PaaS产品,但无法兼容第三方PaaS产品,导致用户的应用与该厂商主导的技术栈形成了绑定,产生软件供应链安全问题。

特别地,部分硬件厂商为了节约云计算平台软件的开发成本,在云计算平台产品中复用了美国NASA掌控的openstack等开源云计算技术,引入了软件供应链安全方面的额外风险

这些反面案例也使得用户在进行云计算平台选型时,将云计算平台的软硬件开放性作为重要的选择权重,尽量选择对硬件中立的纯软件厂商,并且将云计算平台软件的安全可控和原创性作为一票否决项。

安全性和高可用性

云计算平台实质上是一个大型分布式操作系统,相对于传统IDC而言,云计算平台故障的影响范围呈指数级增长。从过往的经验看,大型云计算平台故障造成生产业务中断等高级别事故,其根本原因往往是云计算平台架构设计不合理,导致个别关键路径上的组件单点故障影响了整体的可用性。

另一方面,近年来个别云计算平台相关的隐私数据泄漏、域名被劫持或云存储鉴权错误等恶性安全事件,也说明了一旦云计算平台出现安全问题,就会导致用户的核心数据资产面临着严重的威胁

在云计算平台选型时,我们也应当充分考虑与专有云同构的公有云平台近年在可用性和安全性方面是否发生过大规模故障及严重安全事件,并谨慎考虑使用此类云计算平台承载自己的核心应用及数据资产。

综上所述,用户在选择新一代云计算平台时,应当充分考虑到异构计算与云原生的融合,对边缘计算的支持,软硬件开放性、中立性与自主可控,以及安全性和高可用性等问题。

可否分享几个业界领先用户的真实选型案例?

各行各业数字化转型的先发用户,在进行云计算平台选型时,也充分考虑到了前文所述的四大因素,从而避开了部分用户曾经遇到过的问题与风险。

Top股份制银行案例

国内某Top股份制银行最初采用某硬件厂商基于 OpenStack 的私有云平台,不久便遇到扩展能力受限的问题,并在部署 Red Hat OpenShift 容器平台时出现严重兼容性故障。此外,该厂商还声称其平台只能使用自家服务器和网络设备,不支持第三方硬件。

在论证新一代智算云平台时,该行提出三项刚性约束

● 所需硬件需兼容至少三家供应商

● 平台必须对第三方PaaS产品开放

● 地域(Region)和可用区(AZ)扩展不设上限

最终,该行选择了腾讯云的TCE(Tencent Cloud Enterprise)建设了新一代智算云平台,在同一个云计算平台下管理数千个CPU与GPU节点(包括Intel x86、C86和ARM处理器;NVIDIA GPU及其他异构GPU),并接入多厂商的普通数据中心网络与 RDMA 网络设备。在新一代智算云平台上,该银行实现了核心系统迁移上异构计算云,AI及LLM应用在行内落地,核心系统云原生改造等一系列成果。

全球制造业用户案例

某全球知名的细分领域制造业用户,鉴于全球不确定性日益加剧,制造行业微薄利润难以对抗风险,决定基于自身的数字化积累向行业输出高附加值的数字化能力,实现从传统制造向高附加值产业的转型。特别地,该用户在全球范围内有数十个生产基地,需要在生产基地就近部署资源,以运行生产所需的MES等边远业务。

在进行私有云计算平台选型时,他们秉持“三高一全面”原则:

● 业务全球范围高可用

● 信息全天候高安全

● 分布式设计高扩展

● 全面兼容第三方软硬件

在经过多轮评估后,该用户最终选择了TCE+CDC的分布式云方案:在企业数据中心建设TCE,并扩展到同城双活+异地灾备中心,同时管理各个工厂的CDC边缘云。此方案在实现企业业务上云及数字化转型的同时,也兼顾了各个分支应用的本地化部署和集中管理。

最后,为了迎接“十五五”新征程,企业如何在云计算平台选型方面落地,可以取得更好的效益呢?

其实,我们刚才提到的这两个标杆性质的用户,已经为大家做出了新时代云计算平台选型的示范。

随着全社会数字化转型的不断深入,我们也建议金融、政企及公共事业等用户,借鉴这些数字化转型的标杆用户,通过建设云智一体、云边协同、开放兼容、安全稳定的云计算平台,以全新的姿态,拥抱‘十五五’,创造新篇章!

相关阅读

[1] Capturing the full value of generative AI in banking, McKinsey & Company.

https://www.mckinsey.com/industries/financial-services/our-insights/capturing-the-full-value-of-generative-ai-in-banking

[2] 《法务AI助手搭建及 AIGC 合规管理指引》,德恒律师事务所.

https://www.dehenglaw.com/cn/newscontent/0008/033840/2.aspx?MID=0902

[3] 2025 Strategic Roadmap for Edge Computing, Gartner Research.

https://www.gartner.com/en/documents/6352379

[4] AMD SEV Confidential Computing Vulnerability, AMD.

https://www.amd.com/en/resources/product-security/bulletin/amd-sb-3019.html

[5] Exposing cloud computing as a failure, ResearchGate.

https://www.researchgate.net/publication/268351976_Exposing_cloud_computing_as_a_failure

END

关注专有云 TCE 公众号,了解更多云与 AI 应用的最佳实践!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯专有云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档