操作场景
HAI 可信集群是专为可信任、高性能、低延迟、高并发的 AI 模型线上服务设计的基础设施,广泛应用于需要将训练完成的大语言模型(LLM)、视觉模型、多模态模型等部署为生产级服务的场景。本文详细介绍如何在 HAI 高性能应用服务中创建可信集群,涵盖操作流程、参数配置说明及注意事项,帮助您快速完成集群部署并用于模型推理服务。
操作步骤
1. 登录 HAI 可信集群控制台,进入可信集群管理页面。

2. 在可信集群管理页面,单击新增服务,进入服务创建流程。按照页面指引依次填写各项配置参数,您可基于已有模型或镜像创建可信推理服务实例。

服务名称:自定义服务名称,若不填则默认使用服务的实例 ID 替代。
模型:选择您想要部署的模型。单击应用后可预览应用环境配置详情及应用介绍信息。
推理框架:选择您想要的推理框架,不同框架带来的加速效果不同。
地域:建议选择靠近目标客户的地域,降低网络延迟、提高您的客户的访问速度。
算力套餐:您可根据自己所需的配置进行选择。算力套餐对应的显存、算力、CPU、内存信息在算力方案卡片进行展示。
副本数:默认单副本。
网络配置:设置服务访问网络方式。
公共网络:适用于快速对外提供服务。
专属 VPC:适用于对网络隔离、安全性和内网互通有要求的业务场景。
KVCache:用于配置是否启用全局共享 KVCache 缓存池。开启后可提升上下文复用效率,优化推理时延。
说明:
该能力正在逐步开放中,具体支持范围请以控制台展示为准。
任务配置费用:展示当前配置下的预估费用,按小时计费,并随配置项调整实时变化。
3. 单击部署服务,即可完成部署您专有的可信集群。