知识引擎原子能力第三方大模型 OpenAI 兼容接口

注意：
DeepSeek API 相关功能已转移至 TokenHub，后续请到 TokenHub 使用。
腾讯云第三方大模型 OpenAI 对话接口兼容了 OpenAI 的接口规范，这意味着您可以直接使用 OpenAI 官方提供的 SDK 来调用。您仅需要将 base_url 和 api_key 替换成相关配置，不需要对应用做额外修改，即可无缝将您的应用切换到相应的大模型。
base_url：https://api.lkeap.cloud.tencent.com/v3
api_key：与 DeepSeek 、混元大模型的 API key 均不共用，需在控制台 API key 页面进行创建。
接口请求地址完整路径：https://api.lkeap.cloud.tencent.com/v3/chat/completions
调用情况可在 控制台 中查看。计费详情请参见 计费概述。
说明：
默认单账号下的模型限制为：
QPM (Queries Per Minute): 60
TPM (Tokens Per Minute): 1,000,000
已支持的模型
GLM 系列模型
模型
model 参数值
最大上下文长度
最大输出长度
GLM-5
glm-5
200k
128k
MiniMax 系列模型
模型
model 参数值
最大上下文长度
最大输出长度
MiniMax M2.5
minimax-m2.5
200k
192k
Kimi 系列模型
模型
model 参数值
最大上下文长度
最大输出长度
Kimi K2.5
kimi-k2.5
256k
256k
Kimi K2-0905-preview 
kimi-k2-0905-preview
256k
256k
Kimi K2-turbo-preview
kimi-k2-turbo-preview
256k
256k
Kimi K2-thinking-turbo
kimi-k2-thinking-turbo
256k
256k
说明：
model 参数值：调用模型时携带的“Model”字段，例如 glm-5。
Kimi K2.5 当前仅支持文本输入。
快速开始
API 使用前提：已在腾讯云控制台 API key 管理 开通腾讯云大模型 API 能力并创建 API key。如果通过 SDK 调用，需要安装 OpenAI 。
如果您首次使用大模型 API 能力，请参考 API key 管理 进行大模型 API 能力的开通，并将示例代码中的 model 参数修改为上表中您需要调用的模型名称。
安装 SDK
您需要确保已安装 Python 3.8或以上版本。
安装或更新 OpenAI Python SDK
运行以下命令：
pip install -U openai
如果运行失败，请将 pip 改为 pip3。
示例代码片段
流式输出
第三方模型均支持流式输出；在输出内容比较长的场景下，为降低超时风险，推荐您使用流式输出方式。
Python
NodeJS
cURL
from openai import OpenAI
import os
﻿
# 初始化OpenAI客户端
client = OpenAI(
    # 请用大模型API能力API Key将下行替换为：api_key="sk-xxx",
    api_key="API_KEY", 
    base_url="https://api.lkeap.cloud.tencent.com/v3",
)
﻿
def main():
    reasoning_content = ""  # 思维链回答
    answer_content = ""     # 最终回答
    is_answering = False   #  是否思考中的标记符
    
    # 发送请求
    stream = client.chat.completions.create(
        model="glm-5",  # 此处以 glm-5 为例，可按需更换模型名称
        messages=[
            {"role": "user", "content": "请解释一下RESTful API的设计原则"}
        ],
        stream=True
    )
﻿
    for chunk in stream:
        delta = chunk.choices[0].delta
﻿
        # 处理空内容情况
        if not getattr(delta, 'reasoning_content', None) and not getattr(delta, 'content', None):
            continue
﻿
        # 处理开始回答的情况
        if not getattr(delta, 'reasoning_content', None) and not is_answering:
            is_answering = True
﻿
        # 处理思维链回答
        if getattr(delta, 'reasoning_content', None):
            reasoning_content += delta.reasoning_content
        # 处理最终回答
        elif getattr(delta, 'content', None):
            print(delta.content, end='', flush=True)
            answer_content += delta.content
﻿
if __name__ == "__main__":
    try:
        main()
    except Exception as e:
        print(f"发生错误：{e}")
import OpenAI from "openai";
﻿
const openai = new OpenAI({
    // 请用腾讯云大模型能力API Key将下行替换为：apiKey: "sk-xxx",
    apiKey: "API_KEY", 
    baseURL: "https://api.lkeap.cloud.tencent.com/v3"
});
﻿
async function main() {
    let reasoningContent = ""; // 思维链回答
    let answerContent = ""; // 最终回答
    let isAnswering = false; // 是否思考中的标记符
﻿
    const completion = await openai.chat.completions.create({
        model: "glm-5", // 此处以 glm-5 为例，可按需更换模型名称
        messages: [
            { role: 'user', content: '请解释一下RESTful API的设计原则' }
        ],
        stream: true,
    });
﻿
    for await (const chunk of completion) {
        const delta = chunk.choices[0].delta;
﻿
        // 处理空内容情况
        if (!delta.reasoning_content && !delta.content) {
            continue;
        }
﻿
        // 处理开始回答的情况
        if (!delta.reasoning_content && !isAnswering) {
            isAnswering = true;
        }
﻿
        // 处理思维链回答
        if (delta.reasoning_content) {
            reasoningContent += delta.reasoning_content;
        }
        // 处理最终内容
        else if (delta.content) {
            process.stdout.write(delta.content);
            answerContent += delta.content;
        }
    }
}
﻿
main().catch(console.error);
curl https://api.lkeap.cloud.tencent.com/v3/chat/completions \\
-H "Content-Type: application/json" \\
-H "Authorization: Bearer sk-xxxxxxxxxxx" \\
-d '{
  "model": "glm-5",
  "messages": [
        {
            "role": "user",
            "content": "请解释一下RESTful API的设计原则"
        }
    ],
  "stream": true
}'
﻿
﻿
注意事项
稳定性
若执行后出现“concurrency exceeded”的响应，则表明您的请求遭遇了限流。这通常是由于服务器资源暂时不足所致。建议您稍后再试，届时服务器负载可能已得到缓解。
GLM-5
支持通过 thinking 参数控制思考模式，默认开启思考。
参数配置说明
具体参数和功能
不支持设置的功能
对话前缀续写、上下文硬盘缓存
支持的参数
top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、thinking、json_object、Function Calling
参数默认值
temperature：0.6（取值范围是(0:1)），top_p：0.95（取值范围是(0:1)）
MiniMax M2.5
不支持通过 thinking 参数控制思考模式。
参数配置说明
具体参数和功能
不支持设置的功能
对话前缀续写、上下文硬盘缓存
不支持的参数
json_object、json_schema
支持的参数
top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、Function Calling
参数默认值
temperature：1.0（取值范围是(0:1]），top_p：0.95（取值范围是(0:1]）
Kimi K2.5
支持通过 thinking 参数控制思考模式，默认开启。
在思考模式下，不支持强制调用某个工具，tool_choice 仅支持设置为 auto（默认值）和 none。
参数配置说明
具体参数和功能
不支持设置的功能
对话前缀续写、上下文硬盘缓存
不支持的参数
top_p、temperature、presence_penalty、frequency_penalty
支持的参数
max_tokens、stop、thinking、json_object、json_schema、Function Calling
参数默认值
temperature：1.0，top_p：0.95，presence_penalty：0.0，frequency_penalty：0.0
Kimi K2-0905-preview 
参数配置说明
具体参数和功能
不支持设置的功能
对话前缀续写、上下文硬盘缓存
支持的参数
top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、json_object、json_schema、Function Calling
参数默认值
temperature：0.6（取值范围是[0:1]），top_p：1.0（取值范围是(0:1]）
Kimi K2-turbo-preview
参数配置说明
具体参数和功能
不支持设置的功能
对话前缀续写、上下文硬盘缓存
支持的参数
top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、json_object、json_schema、Function Calling
参数默认值
temperature：0.6（取值范围是[0:1]），top_p：1.0（取值范围是(0:1]）
Kimi K2-thinking-turbo
参数配置说明
具体参数和功能
不支持设置的功能
对话前缀续写、上下文硬盘缓存
支持的参数
top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、json_object、json_schema、Function Calling
参数默认值
temperature：1.0（取值范围是[0:1]），top_p：1.0（取值范围是(0:1]）
敬请关注后续动态。
查看更多完整示例
﻿Python﻿
﻿NodeJS﻿
﻿Go﻿
错误码
错误码
错误信息
说明
20024
invalid params
参数信息有误，请查阅 API 文档 检查入参。
20031
not enough quota
您的账号目前没有可用资源。为了继续使用，请先 开通 并完成付费。
20033
invalid model
模型名称错误，请检查模型名称。
20034
concurrency rate limit exceeded
并发限流错误。这通常是由于服务器资源暂时不足所致。建议您稍后再试，届时服务器负载可能已得到缓解。
20052
concurrency exceeded
模型服务负载过高限流错误，请稍后重试。
20057
model engine error
模型引擎错误，请您稍后重试，或者联系平台技术同学处理。
20059
input length too long
输入长度超过上下文长度，请减小输入内容的长度。
20072
tpm rate limit exceeded
TPM 限流错误。
错误示例
{"error":{"message":"not enough quota","type":"runtime_error","param":null,"code":"20031"}}
安全审查示例
finish_reason = content_filter 表示输出内容触发了安全审核机制。这通常发生在系统检测到某些输入或输出内容可能包含敏感信息或不适当的语言，因此自动启动了审核流程以确保内容的安全性和适宜性。在这种情况下，系统会对相关内容进行仔细审查，以防止不当信息的传播。
非流式输出示例：
{"id":"26a58a8ab6e7712937ad542436b4b97a","object":"chat.completion","created":1740379897,"model":"glm-5","choices":[{"index":0,"message":{"role":"assistant","content":"你好，我无法给到相关内容。"},"finish_reason":"content_filter"}],"usage":{"prompt_tokens":0,"completion_tokens":0,"total_tokens":0}}
流式输出示例：
data: {"id":"d2d486bfdb31b1b6f55c8b5cbeb492d3","object":"chat.completion.chunk","created":1740379627,"model":"glm-5","choices":[{"index":0,"delta":{"role":"assistant","content":"你好，我无法给到相关内容。"},"finish_reason":"content_filter"}],"usage":{"prompt_tokens":0,"completion_tokens":0,"total_tokens":0}}
﻿

参数配置说明	具体参数和功能
不支持设置的功能	对话前缀续写、上下文硬盘缓存
支持的参数	top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、thinking、json_object、Function Calling
参数默认值	temperature：0.6（取值范围是(0:1)），top_p：0.95（取值范围是(0:1)）

参数配置说明	具体参数和功能
不支持设置的功能	对话前缀续写、上下文硬盘缓存
不支持的参数	json_object、json_schema
支持的参数	top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、Function Calling
参数默认值	temperature：1.0（取值范围是(0:1]），top_p：0.95（取值范围是(0:1]）

参数配置说明	具体参数和功能
不支持设置的功能	对话前缀续写、上下文硬盘缓存
不支持的参数	top_p、temperature、presence_penalty、frequency_penalty
支持的参数	max_tokens、stop、thinking、json_object、json_schema、Function Calling
参数默认值	temperature：1.0，top_p：0.95，presence_penalty：0.0，frequency_penalty：0.0

参数配置说明	具体参数和功能
不支持设置的功能	对话前缀续写、上下文硬盘缓存
支持的参数	top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、json_object、json_schema、Function Calling
参数默认值	temperature：0.6（取值范围是[0:1]），top_p：1.0（取值范围是(0:1]）

参数配置说明	具体参数和功能
不支持设置的功能	对话前缀续写、上下文硬盘缓存
支持的参数	top_p、temperature、max_tokens、presence_penalty、frequency_penalty、stop、json_object、json_schema、Function Calling
参数默认值	temperature：0.6（取值范围是[0:1]），top_p：1.0（取值范围是(0:1]）

模型	model 参数值	最大上下文长度	最大输出长度
GLM-5	glm-5	200k	128k

错误码	错误信息	说明
20024	invalid params	参数信息有误，请查阅 API 文档检查入参。
20031	not enough quota	您的账号目前没有可用资源。为了继续使用，请先开通并完成付费。
20033	invalid model	模型名称错误，请检查模型名称。
20034	concurrency rate limit exceeded	并发限流错误。这通常是由于服务器资源暂时不足所致。建议您稍后再试，届时服务器负载可能已得到缓解。
20052	concurrency exceeded	模型服务负载过高限流错误，请稍后重试。
20057	model engine error	模型引擎错误，请您稍后重试，或者联系平台技术同学处理。
20059	input length too long	输入长度超过上下文长度，请减小输入内容的长度。
20072	tpm rate limit exceeded	TPM 限流错误。

第三方大模型 OpenAI 兼容接口

本页目录：

已支持的模型

GLM 系列模型

MiniMax 系列模型

Kimi 系列模型

快速开始

安装 SDK

示例代码片段

流式输出

注意事项

稳定性

GLM-5

MiniMax M2.5

Kimi K2.5

Kimi K2-0905-preview

Kimi K2-turbo-preview

Kimi K2-thinking-turbo

查看更多完整示例

错误码

错误示例

安全审查示例

非流式输出示例：

流式输出示例：