有训练好的 GGUF 模型文件(LLaAM)想要部署在腾讯云上做推理,可以选择使用 TKE serverless 超级节点快速部署。
下面以 full-cuda 镜像 为例,进行配置说明:
Dockefile
后 本地构建镜像。本示例的工作负载 YAMl 配置详情如下:
apiVersion: apps/v1
kind: Deployment
metadata:
labels:
app: full-cuda
name: full-cuda
namespace: default
spec:
replicas: 1
selector:
matchLabels:
app: full-cuda
template:
metadata:
annotations:
eks.tke.cloud.tencent.com/gpu-type: V100 # 申请V100 类型GPU
labels:
app: full-cuda
spec:
containers:
- args:
- --server
- -m
- /models/<模型文件> # 指定模型文件
- --n-gpu-layers
- "-1"
- --host # 暴露web服务的host
- 0.0.0.0
- --port # 暴露web服务的端口
- "8080"
image: ghcr.io/ggerganov/llama.cpp:full-cuda
imagePullPolicy: IfNotPresent
name: full-cuda
ports:
- containerPort: 8080
protocol: TCP
resources:
limits:
cpu: "8"
memory: 40Gi
nvidia.com/gpu: "1" # 通常是1,参考 https://cloud.tencent.com/document/product/457/44174#gpu-pod-.E8.A7.84.E6.A0.BC.E8.AE.A1.E7.AE.97.E6.96.B9.E6.B3.95
requests:
cpu: "8"
memory: 40Gi
nvidia.com/gpu: "1" # 通常是1,参考 https://cloud.tencent.com/document/product/457/44174#gpu-pod-.E8.A7.84.E6.A0.BC.E8.AE.A1.E7.AE.97.E6.96.B9.E6.B3.95
volumeMounts:
- mountPath: /models #挂载模型文件 PVC
name: models-path
volumes:
- name: models-path
persistentVolumeClaim:
claimName: models-pvc # 配置挂载模型文件
---
apiVersion: v1
kind: Service
metadata:
name: full-cuda
spec:
selector:
app: full-cuda
ports:
- protocol: TCP
port: 80
targetPort: 8080
type: LoadBalancer # lb暴露服务
上述文档仅为快速上手指导,如果有更加复杂的 LLaMA 大模型服务容器化场景,请参考官方文档,或联系 TKE 架构师支持。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。