配置模型调度管理

最近更新时间:2026-05-08 11:28:08

我的收藏
本文介绍如何关联模型,以及配置模型间和模型内的路由策略。配置完成后,用户请求经由 CLB 模型路由统一接入,平台完成计费、限流与日志记录后,根据您关联的模型,以及所配置的路由策略进行匹配与决策,最终分发至对应的后端模型中。

前提条件

已获得 CLB 模型路由的使用资格。如未获得,请提交 工单申请。建议提前阅读 使用约束支持的模型提供商 了解相关信息。
已创建模型路由实例,详细操作指导请参见 创建模型路由实例
已完成新增 BYOK 模型,详细操作指导请参见 BYOK 模型配置管理
已创建模型路由访问密钥(API Key),详细操作指导请参见 创建模型路由访问密钥

操作指导

步骤一 关联模型

1. 登录模型路由控制台,在实例管理页面,单击目标实例名称,进入目标实例的实例管理页面。
2. 切换至模型调度管理页签,单击批量关联,选择关联模型,确认关联信息后单击确认


步骤二 配置模型间路由策略

当请求未指定具体模型时,系统将根据当前实时状态(如负载、延迟)或用户意图,智能选择最合适的模型进行处理。
策略
说明
简单随机路由
在可用模型中随机选择。
最低系数路由
优先分发到积分较低的模型。
意图路由
叠加增强路由,根据用户意图智能分级,每级可选多个模型并复用模型间路由策略。

意图路由配置指导(可选)

1. 在意图路由中单击新建规则

2. 在新建意图路由规则中,添加意图路由规则名称,配置复杂度,单击确定
3. 配置完成后,可查看规则或对已有规则进行编辑。

步骤三 配置模型内路由策略

当模型确定后,系统将根据实时性能指标(如可用性、响应速度),从该模型下不同的服务所属厂商(或 API 密钥)中,动态选择最优的访问节点。
策略
说明
简单随机路由
在可用模型中随机选择。
最低繁忙路由
将请求分配给当前最空闲的模型。
最低延迟路由
自动选择当前延迟最低的模型。
用量均衡路由
按用量均衡分配请求到各模型。

步骤四 配置 Fallback 策略

当主模型服务失败时,系统将自动切换至 Fallback 中的模型,保障业务连续性。系统采用两层故障退避机制:
第一层(模型内退避):优先在同一模型下的不同服务供应商(或 API 密钥)之间进行切换尝试。
第二层(模型间退避):若当前模型无可用供应商,则根据您预设的模型优先级,自动切换到备选模型继续提供服务。
1. 在 Fallback 策略中,单击去设置。

2. 在编辑 Fallback 策略中,选择模型,并单击确定,完成配置。


后续操作

创建完成后,您可以在实例管理页面切换至聊天测试页签,对配置进行验证, 详细操作请参见聊天测试
创建完成后,您可在实例管理页面切换至用量详情页签,关注 Token 消耗和模型资源包使用情况,避免因额度不足导致业务调用失败。