前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【TKE】超级节点部署 LLaMA 大语言模型服务

【TKE】超级节点部署 LLaMA 大语言模型服务

原创
作者头像
Jokey
修改2023-11-07 17:43:49
3440
修改2023-11-07 17:43:49
举报
文章被收录于专栏:云原生搬运工

使用背景

有训练好的 GGUF 模型文件(LLaAM)想要部署在腾讯云上做推理,可以选择使用 TKE serverless 超级节点快速部署。

准备工作

  1. 创建 TKE serverless 集群及超级节点,参考 创建集群
  2. 创建部署所需要的超级节点,参考 创建超级节点

操作步骤

下面以 full-cuda 镜像 为例,进行配置说明:

  1. 为了方便使用,这里启动一个 HTTP Server 暴露模型服务,然后通过 HTTP 调用的方式使用,具体启动命令可以根据需要调整,详情参考:Server 启动
  2. 需要申请的GPU卡类型和卡数可以根据工作负载注解和容器规格配置,详情参考 TKE Serverless 支持的规格:GPU 规格。本示例申请一张 v100 GPU,则需要在添加注解:eks.tke.cloud.tencent.com/gpu-type: 'V100',并配置相应的容器资源规格。
  3. 如因 GPU 驱动版本等原因需要重新打镜像,也可以参照文档修改Dockefile本地构建镜像

本示例的工作负载 YAMl 配置详情如下:

代码语言:yaml
复制
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: full-cuda
  name: full-cuda
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: full-cuda
  template:
    metadata:
      annotations:
        eks.tke.cloud.tencent.com/gpu-type: V100  # 申请V100 类型GPU
      labels:
        app: full-cuda
    spec:
      containers:
      - args:
        - --server
        - -m
        - /models/<模型文件> # 指定模型文件
        - --n-gpu-layers
        - "-1"
        - --host # 暴露web服务的host
        - 0.0.0.0
        - --port # 暴露web服务的端口
        - "8080"
        image: ghcr.io/ggerganov/llama.cpp:full-cuda
        imagePullPolicy: IfNotPresent
        name: full-cuda
        ports:
        - containerPort: 8080
          protocol: TCP
        resources:
          limits:
            cpu: "8"
            memory: 40Gi
            nvidia.com/gpu: "1" # 通常是1,参考 https://cloud.tencent.com/document/product/457/44174#gpu-pod-.E8.A7.84.E6.A0.BC.E8.AE.A1.E7.AE.97.E6.96.B9.E6.B3.95
          requests:
            cpu: "8"
            memory: 40Gi
            nvidia.com/gpu: "1" # 通常是1,参考 https://cloud.tencent.com/document/product/457/44174#gpu-pod-.E8.A7.84.E6.A0.BC.E8.AE.A1.E7.AE.97.E6.96.B9.E6.B3.95
        volumeMounts:
        - mountPath: /models #挂载模型文件 PVC
          name: models-path
      volumes:
      - name: models-path
        persistentVolumeClaim:
          claimName: models-pvc  # 配置挂载模型文件
---

apiVersion: v1
kind: Service
metadata:
  name: full-cuda
spec:
  selector:
    app: full-cuda
  ports:
    - protocol: TCP
      port: 80
      targetPort: 8080
  type: LoadBalancer # lb暴露服务

总结

上述文档仅为快速上手指导,如果有更加复杂的 LLaMA 大模型服务容器化场景,请参考官方文档,或联系 TKE 架构师支持。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 使用背景
  • 准备工作
  • 操作步骤
  • 总结
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档