开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python GPU资源利用率

是指在使用Python编程语言进行GPU计算时，有效利用GPU资源的程度。GPU（Graphics Processing Unit，图形处理器）是一种专门用于处理图形和并行计算的硬件设备，具有高度的并行计算能力。

Python在GPU资源利用方面有多种方法和工具，其中最常用的是使用CUDA（Compute Unified Device Architecture）进行GPU编程。CUDA是由NVIDIA开发的一种并行计算平台和编程模型，可以利用GPU的并行计算能力加速Python程序的执行。

在Python中，可以使用第三方库如PyCUDA和Numba来进行CUDA编程。PyCUDA是一个Python绑定库，可以直接在Python中调用CUDA的API进行GPU编程。Numba是一个即时编译器，可以将Python代码转换为高效的机器码，从而利用GPU进行加速。

通过使用CUDA进行GPU编程，可以在Python中实现并行计算，提高程序的执行速度。GPU资源利用率高的优势包括：

并行计算能力：GPU具有大量的计算核心，可以同时执行多个计算任务，从而提高计算效率。
高性能计算：GPU的并行计算能力可以加速复杂的计算任务，如图像处理、机器学习、深度学习等。
节省时间和成本：通过利用GPU资源进行加速计算，可以节省计算时间和成本，提高工作效率。

Python GPU资源利用率在各个领域都有广泛的应用场景，包括但不限于：

科学计算：在科学计算领域，GPU可以加速复杂的数值计算、模拟和优化问题，如天气预报、分子动力学模拟等。
数据分析和机器学习：在数据分析和机器学习领域，GPU可以加速大规模数据的处理和模型训练，提高算法的效率和准确性。
图像和视频处理：在图像和视频处理领域，GPU可以加速图像和视频的编解码、滤波、特效处理等，提高图像和视频处理的速度和质量。
游戏开发：在游戏开发领域，GPU可以加速游戏的渲染、物理模拟和人工智能算法，提高游戏的画面效果和交互体验。

腾讯云提供了一系列与GPU资源利用相关的产品和服务，包括：

GPU云服务器：提供了配置高性能GPU的云服务器实例，可用于进行GPU计算和深度学习任务。
- 产品介绍链接：https://cloud.tencent.com/product/cvm/gpu

弹性GPU：为云服务器实例提供了可弹性挂载和使用的GPU加速卡，可根据需求动态调整GPU资源。
- 产品介绍链接：https://cloud.tencent.com/product/gpu/elastic-gpu
GPU容器服务：提供了基于容器技术的GPU加速服务，可快速部署和管理GPU计算任务。
- 产品介绍链接：https://cloud.tencent.com/product/tke/gpu

通过使用腾讯云的GPU资源，用户可以充分利用GPU的并行计算能力，加速Python程序的执行，提高计算效率和性能。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

2018 年 12 月，英伟达在加拿大蒙特利尔 NeurIPS 大会上发布最新款产品 Titan RTX，作为 2017 年 Titan V 的「继承者」，Titan RTX 价格更低，显存更大，性能更强，且使用图灵架构，具备强大的光线追踪能力。因此，Titan RTX 的发布对 AI 社区而言，是不是做深度学习的一个不错选择呢？

05

教你一个在NVIDIA Jetson开发板上显示GPU利用率的图形化工具

一般来说，如果您想了解NVIDIA Jetson开发板上Linux系统的繁忙程度，您可以使用像系统监视器这样的图形工具。CPU、内存和网络以及各种各样的其他参数都在显示中。然而唯独缺少GPU的利用率。

03

双引擎 GPU 容器虚拟化，用户态和内核态的技术解析和实践分享

来源 | 经授权转载自百度智能云技术站公众号如何让硬件算力发挥最大效率，是所有资源运营商和用户非常关注的问题。百度作为一家领先的 AI 公司，拥有可能是业界最全的 AI 应用场景。在这篇文章中，将和大家分享和讨论 GPU 容器虚拟化在复杂AI场景中的解决方案和厂内的最佳实践。下面这张图片的左右两部分，在不同场合下已经多次展示过，放到这里主要想强调算力需求 —— 硬件算力的指数型增长，与真实应用场景中利用率偏低资源浪费之间的矛盾。左边的部分是 OpenAI 统计的数据，从 2012 年以来，模

02

Kubernetes与虚拟GPU：实现高效管理和利用

Kubernetes中的GPU资源管理是指如何有效地管理和利用集群中的GPU资源。GPU资源在许多工作负载中具有重要的作用，例如深度学习、科学计算和图形渲染等领域。为了实现高效的GPU资源管理，Kubernetes提供了几个关键的机制和组件。

00

PyTorch 官方博客：PyTorch Profiler v1.9 详解

PyTorch Profiler v1.9 现已发布，本版本旨在为用户提供全新工具，让用户无论是在一台还是多台机器上，都可以更轻松地诊断和修复机器学习性能问题。

02

K8s集群稳定性提升手段

Kubernetes 中的 Request(请求) 字段用于管理容器对 CPU 和内存资源预留的机制，保证容器至少可以达到的资源量，该部分资源不能被其他容器抢占，具体可查看(https://kubernetes.io/docs/concepts/configuration/manage-resources-containers/)。当 Request 设置过小，无法保证业务的资源量，当业务的负载变高时无力承载，因此用户通常习惯将 Request 设置得很高，以保证服务的可靠性。

03

TKE 注册节点，IDC 轻量云原生上云的最佳路径

林顺利，腾讯云原生产品经理，负责分布式云产品迭代和注册节点客户扩展，专注于云原生混合云新形态的推广实践。背景企业在业务的持续运维过程中，感受到腾讯云 TKE 带来的便捷性和极致的使用体验，将新业务的发布以及老业务的维护都迁移到云上 TKE 来实现。但很多企业数据中心建设较为早期，选型上采取了自建 IDC 机房的方案，长久以来的 IDC 运营维护和企业上云的诉求产生了冲突和矛盾： 1、资源难利旧/利用率低业务大部分在云上运行，存量的 IDC 主机难以利旧；云下资源业务利用率低（主要是 CPU 资源），

02

Multi-Process Scheduling

从Kepler的GP10架构开始，NVIDIA就引入了MPS（基于软件的多进程服务），这种技术在当时实际上是称为HyperQ ，允许多个流（stream）或者CPU的进程同时向GPU发射Kernel函数，结合为一个单一应用程序的上下文在GPU上运行，从而实现更好的GPU利用率。在单个进程的任务处理，对GPU利用率不高的情况下是非常有用的。实际上，在Pascal架构出现之后的MPS可以认为是HyperQ的一种实现方式。现在在Volta架构下面，NVIDIA又将MPS服务进行了基于硬件的优化。 MPS有哪些

07

美团视觉GPU推理服务部署架构优化实践

面对在线推理服务使用的GPU资源不断增加、GPU利用率普遍较低的挑战，美团视觉研发团队决定通过模型结构拆分和微服务化进行优化，他们提出了一种通用高效的部署架构，来解决这种常见的性能瓶颈问题。

05

如何监控NVIDIA GPU 的运行状态和使用情况

设备跟踪和管理正成为机器学习工程的中心焦点。这个任务的核心是在模型训练过程中跟踪和报告gpu的使用效率。

02

成本降低40%、资源利用率提高20%的 AI 应用产品云原生容器化之路

郭云龙，腾讯云高级工程师，目前就职于 CSIG 云产品三部-AI 应用产品中心，现负责中心后台业务框架开发。导语为了满足 AI 能力在公有云 SaaS 场景下，服务和模型需要快速迭代交付的需求，保障服务在不稳定高并发时的高成功率，以及进一步提升资源利用率，AI 应用产品中心进行了一系列的调研与实践，本篇将重点介绍团队在容器化方面的实践经验。背景和问题公有云 AI SaaS 产品（如人脸融合[1])的一般服务流程为：C 端或 B 端客户通过采集设备采集图像、音视频等，经由云 API 等接入方式传入

03

集群 CPU 利用率均值一年提升 25%，小红书混部技术的优解方案

根据 Gartner 预测数据显示：2024 年全球 IT 支出预计将达到 5.1 万亿美元，比 2023 年增长 8 %。然而，该机构的另一项调查数据显示：全球数据中心服务器平均 CPU 利用率普遍低于 20%，存在巨大的资源浪费。据测算，以数百万核 CPU 规模的数据中心为例，每提升 1 个百分点的整体资源利用率，每年将节省数千万元的成本。由此可见，提高资源利用率对于降低企业运营成本具有显著的效果。早在 2015 年，谷歌就在其经典论文《Large-scale cluster management at Google with Borg》中披露了它在资源管理和调度方面的实践经验，是最早通过混部技术来提升资源利用率的公司之一。国内多家头部互联网企业也相继实施类似的技术方案，并取得可观的资源利用率提升效果。随着小红书业务的高速发展，各类在线、离线业务对计算资源的需求日益增长。与此同时，我们观察到：部分在线集群天均利用率的水位却维持在较低的水平。造成这一现象的主要原因有以下几点：

01

DCGM:监控Kubernetes集群的GPU资源

<Kubelet从入门到放弃>系列将对Kubelet组件由基础知识到源码进行深入梳理。因上篇文章Kubelet从入门到放弃系列:GPU加持中介绍了Nvidia系列GPU如何加持Kubernetes，我们除了关注GPU资源的使用，也关注GPU资源的管理，因此本文推出 Kubernetes集群中如何监控GPU资源。

02

AI推理加速原理解析与工程实践分享 | Q推荐

本文整理自同名线上分享，是 12 月份「百度百舸 - 云原生 AI」技术公开课的第三期。这次分享将端到端分析 AI 推理过程以及痛点，介绍业界典型的推理加速思路和具体方案，并介绍百度智能云在这方面的一些实践成果。本次分享我们将介绍如何加速 AI 推理过程。内容主要包括四部分：第一部分，端到端的分析 AI 推理的过程以及这个过程中的痛点；第二部分，我们将介绍业界典型的推理加速思路及具体方案；第三部分，介绍百度百舸平台的 AI 推理加速套件 AIAK-Inference 的加速方案；最后一部分，我们

01

集群 CPU 利用率均值达 45% ，揭秘小红书规模化混部技术实践

根据 Gartner 预测数据显示：2024 年全球 IT 支出预计将达到 5.1 万亿美元，比 2023 年增长 8 %。然而，该机构的另一项调查数据显示：全球数据中心服务器平均 CPU 利用率普遍低于 20%，存在巨大的资源浪费。据测算，以数百万核 CPU 规模的数据中心为例，每提升 1 个百分点的整体资源利用率，每年将节省数千万元的成本。由此可见，提高资源利用率对于降低企业运营成本具有显著的效果。

01

云原生的弹性 AI 训练系列之三：借助弹性伸缩的 Jupyter Notebook，大幅提高 GPU 利用率

高策，腾讯高级工程师，Kubeflow 训练和自动机器学习工作组 Tech Lead，负责腾讯云 TKE 在 AI 场景的产品研发和支持工作。 Jupyter Notebooks 在 Kubernetes 上部署往往需要绑定一张 GPU，而大多数时候 GPU 并没有被使用，因此利用率低下。为了解决这一问题，我们开源了 elastic-jupyter-operator[1]，将占用 GPU 的 Kernel 组件单独部署，在长期空闲的情况下自动回收，释放占用的 GPU。这篇文章主要介绍了这一开源项目的使用方式

02

视频抽帧的全流程GPU异构加速实践

视频已成为内容和广告的主要媒介形式，但目前的视频内容理解或审核等AI能力，主流依然是先抽帧，再基于图像帧做特征提取和预测。抽帧由于步骤多、计算重，在视频AI推理场景很容易成为性能瓶颈。因此，有必要使用硬件加速等手段，来对视频抽帧做极致的性能优化。

qGPU 容器产品全量上线，重磅发布 GPU 在离线混部功能

徐蓓，腾讯云容器技术专家，腾讯云异构计算容器负责人，多年云计算一线架构设计与研发经验，长期深耕 Kubernetes、在离线混部与 GPU 容器化领域，Kubernetes KEP Memory QoS 作者，Kubernetes 积极贡献者摘要 qGPU 是腾讯云推出的 GPU 共享技术，支持在多个容器间共享 GPU 卡资源，提供百分比算力与 MB 级显存细粒度分配和强隔离能力，并且搭配业界独有的 GPU 在离线混部技术，在充分保证业务安全、稳定的前提下，将 GPU 利用率提升到了极致。 qGPU 已服

03

qGPU on TKE - 腾讯云发布下一代 GPU 容器共享技术

timxbxu，腾讯云专家工程师，深耕云计算、Kubernetes、离在线混部、GPU 容器化领域，Kubernetes 社区积极贡献者。 jikesong，腾讯云异构计算研发负责人，KVM上第一个 GPU 全虚拟化项目 KVMGT 作者，对 GPU 虚拟化有深入的研究。 zoeyzyyan，腾讯云容器产品经理，专注资源管理、降本增效、云原生AI领域。背景 qGPU 是腾讯云推出的 GPU 共享技术，支持在多个容器间共享 GPU卡，并提供容器间显存、算力强隔离的能力，从而在更小粒度的使用 GPU 卡

05

如何分析机器学习中的性能瓶颈

软件性能分析是达到系统最佳效能的关键，数据科学和机器学习应用程序也是如此。在 GPU 加速深度学习的时代，当剖析深度神经网络时，必须了解 CPU、GPU，甚至是可能会导致训练或推理变慢的内存瓶颈

06

ChatGPT专题|做出ChatGPT的OpenAI，是如何打破英伟达在机器学习领域的垄断地位的？

在机器学习领域，无论是硬件还是软件，英伟达无疑均拥有巨大优势，后者用 CUDA 建立起了一道软件的护城河。可惜的是，这家公司缺乏远见，未能利用其在机器学习硬软件方面的巨大优势，让自己成为机器学习默认的编译器。而它对可用性与易用性的忽视，让 OpenAI 与 Meta 得以趁虚而入，其主导地位正在被打破。

02

深度剖析：针对深度学习的GPU共享

来源丨https://zhuanlan.zhihu.com/p/285994980

02

容器化过程记录：稳定性提升和利用率提升

这里的容器化映射到业务上来说，除了将服务载体由物理机迁移到容器上，更主要是将原来的复杂逻辑解耦，微服务化。

02

来自一线大厂的云原生成本优化实践指南

近年来，公有云、混合云等技术在全球迅速发展，云的普及度越来越高，Docker、Kubernetes、DevOps、Service Mesh 等云原生技术蓬勃发展。但在“上云”之后，企业却往往发现“用云”并没有那么容易。

03

提高GPU训练利用率的Tricks

首先，如果你现在已经很熟悉tf.data+estimator了，可以把文章x掉了╮(￣▽￣””)╭

03

再来聊聊大家都经常聊的算力话题

今年春节的时候，一直在上海。闲来无事，又在思考软硬件融合相关的各种弯弯绕绕。于是，春节期间写了《预见·第四代算力革命》系列四篇文章，洋洋洒洒3万字。

02

【客户案例】云联壹云帮助华北电力大学搭建 AI 训练平台

华北电力大学是教育部直属全国重点大学，是国家“211 工程”和“985 工程优势学科创新平台”重点建设大学。2017 年，学校进入国家“双一流”建设高校行列，重点建设能源电力科学与工程学科群，全面开启了建设世界一流学科和高水平研究型大学的新征程。

03

PyTorch模型性能分析与优化

训练深度学习模型，尤其是大型模型，可能是一项昂贵的支出。我们可以使用的管理这些成本的主要方法之一是性能优化。性能优化是一个迭代过程，我们不断寻找提高应用程序性能的机会，然后利用这些机会。在之前的文章中（例如此处），我们强调了拥有适当工具来进行此分析的重要性。工具的选择可能取决于许多因素，包括训练加速器的类型（例如 GPU、HPU 或其他）和训练框架。

01

深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析

（ps：对于如何在Intel CPU，ARM架构CPU，以及Jetson TensorRT上部署深度学习模型，以及部署遇到的速度问题，该如何解决。请查看我的另外一篇文章。如何定制化编译Pytorch，TensorFlow，使得CNN模型在CPU，GPU，ARM架构和X86架构，都能快速运行，需要对每一个平台，有针对性的调整。如何做到最大化加速深度学习在不同平台部署性能。请看我的这篇文章。）

04

没错，AI原生云GPU算力圈的"super爱豆"就是他

相关信息：招聘云原生开发工程师 2021智能云边开源峰会：云原生、人工智能和边缘计算 Bitfusion 如何在 vSphere 中使用 PVRDMA 功能？导读：后疫情时代助力复工复产，AI应用百花齐放，GPU算力需求井喷式增长。然而K形算力剪刀差给庞大的AI原生云带来沉重的成本负担，一方面是单机GPU算力不足而全局算力过剩，另一方面是GPU算力不足而CPU算力过剩。幸好有他（“super爱豆”）腾云而来，让AI算力像水一样在云原生平台内自由流动，他们的格言是“我不生产算力，我只是算力的搬运

04

OpenCloudOS 助力趣丸科技降本增效，容器化高效运行

导读：趣丸科技，一家集兴趣社交、电子竞技、人工智能于一体的创新型科技企业，在采用 OpenCloudOS 开源操作系统后，结合业务特点将容器化集群平均利用率提高到 40% 左右，高峰利用率达 80% ，降本增效的同时，满足了不断增长的业务需求。本文将介绍 OpenCloudOS 在趣丸科技的具体应用，以及平均利用率增长背后的秘密。

02

独家｜pytorch模型性能分析和优化

照片由 Torsten Dederichs 拍摄，上传到 Unsplash

02

利用 NVIDIA Triton 2.3 简化和扩充推理服务

AI、机器学习以及深度学习，是解决产品推荐、客户互动、财务风险评估、制造瑕疵侦测等各种运算问题的有效工具。在实际场域中使用 AI 模型，又称为推理服务，是将 AI 整合至应用程序中最复杂的部分。NVIDIA Triton 推理服务器可负责推理服务的所有流程，让您能专注于开发应用程序。

02

腾讯云&信通院国内首发《降本之源-云原生成本管理白皮书》

在11月4日举办的2021腾讯数字生态大会云原生专场上，腾讯云联合中国信通院率先在国内重磅发布了《降本之源-云原生成本管理白皮书》（简称白皮书），基于腾讯云在业内最大规模的 Kubernetes 实践经验，系统性呈现云原生成本优化方法论和最佳实践路径。腾讯云容器产品总经理邹辉表示：“Kubernetes 是云原生技术栈的核心，腾讯云原生经过多年的技术积累以及众多腾讯内外部复杂业务考验已经步入非常成熟的阶段。TKE 目前拥有国内最大规模的 Kubernetes 集群以及业界最好的 Kubernetes

04

听这场腾讯特供【企业成本优化实践专场】，实现30%降本

降本增效从云计算发展至今一直都是企业上云的核心关注点。为帮助企业改善用云成本，充分发挥云原生的效能和价值，2021年腾讯云发布了《降本之源 · 云原生成本管理白皮书》，白皮书提出一套体系化的云原生成本优化方法论和最佳实践路径，结合行业优秀案例，为企业的数字化转型提供可靠的保障。（腾讯云原生公众号后台回复“白皮书”，可进行下载） 2022年3月24日北京富力万丽酒店举办的 ArchSummit 全球架构师峰会，由腾讯云容器产品中心总经理邹辉出品，集结了来自腾讯和便利蜂的5位技术专家，共建【企业云原生成本优化

02

CUDA 多进程服务工具MPS为啥这么有用？

多进程服务(MPS)是CUDA应用程序编程接口(API)的另一种二进制兼容实现。MPS运行时架构被设计成透明地启用协作的多进程CUDA应用程序(通常是MPI作业)，以利用最新的NVIDIA(基于kepler) gpu上的Hyper-Q功能。Hyper-Q允许CUDA内核在同一GPU上并行处理;这可以在GPU计算能力被单个应用程序进程未充分利用的情况下提高性能。

03

kubernetes 降本增效标准指南| 资源利用率提升工具大全

王孝威，腾讯云容器产品经理，热衷于为客户提供高效的 Kubernetes 使用方式，为客户极致降本增效服务。晏子怡，腾讯云容器产品经理，在Kubernetes 弹性伸缩、资源高效利用领域有丰富的实战经验。背景公有云的发展为业务的稳定性、可拓展性、便利性带来了极大帮助。这种用租代替买、并且提供完善的技术支持和保障的服务，理应为业务带来降本增效的效果。但实际上业务上云并不意味着成本一定减少，还需适配云上业务的应用开发、架构设计、管理运维、合理使用等多方面解决方案，才能真正助力业务的降本增效。在《Ku

04

浙江大学研究团队如何在消费级GPU上实现对100B模型微调

近年来，大型语言模型的快速发展为世界带来了巨大的价值，其优越性能源自它们所利用的庞大参数数量。然而，即使是目前内存容量最高的GPU，也只有80GB，远远不足以容纳这些庞大的参数及其相关的优化器状态，尤其在进行基于随机梯度下降的优化时。

01

和TensorFlow一样，英伟达CUDA的垄断格局将被打破？

选自semianalysis.com 作者：Dylan Patel 机器之心编译机器之心编辑部 CUDA 闭源库将和 TensorFlow 一样逐渐式微。十年来，机器学习软件开发的格局发生了重大变化。许多框架如雨后春笋般涌现，但大多数都严重依赖于英伟达的 CUDA，并在英伟达的 GPU 上才能获得最佳的性能。然而，随着 PyTorch 2.0 和 OpenAI Triton 的到来，英伟达在这一领域的主导地位正在被打破。谷歌早期在机器学习模型架构、训练、模型优化方面都具有很大优势，但现在却难以充分发挥

01

腾讯云联合中国信通院&作业帮等首发《降本之源-云原生成本管理白皮书》

在11月4日举办的2021腾讯数字生态大会云原生专场上，腾讯云联合中国信通院、作业帮等率先在国内重磅发布了《降本之源-云原生成本管理白皮书》（简称白皮书），基于腾讯云在业内最大规模的 Kubernetes 实践经验，系统性呈现云原生成本优化方法论和最佳实践路径。腾讯云容器产品总经理邹辉表示：“Kubernetes 是云原生技术栈的核心，腾讯云原生经过多年的技术积累以及众多腾讯内外部复杂业务考验已经步入非常成熟的阶段。TKE 目前拥有国内最大规模的 Kubernetes 集群以及业界最好的 Kuber

01

认识多种处理芯片的特性和实战（下篇）

01

【他山之石】Pytorch/Tensorflow-gpu训练并行加速trick（含代码）

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注。

01

【VMware vSphere 7】虚拟化概述（一）

一、什么是VMware vSphere？ VMware vSphere 是 VMware 的虚拟化平台，可将数据中心转换为包括 CPU、存储和网络资源的聚合计算基础架构。vSphere 将这些基础架构作为一个统一的运行环境进行管理，并提供工具来管理加入该环境的数据中心。 vSphere 的两个核心组件是 ESXi和vCenter Server。ESXi是用于创建并运行虚拟机和虚拟设备的虚拟化平台。vCenter Server是一项服务，用于管理网络中连接的多个主机，并将主机资源池化。虚拟机文件

01

美团视觉GPU推理服务部署架构优化实战

1.视觉模型服务部署面临的问题与挑战 2.GPU服务性能优化实践案例 3.通用高效的推理服务部署架构

01

LLM推理后端性能大比拼，来自BentoML团队的深度评估！

选择适宜的推理后端来服务大型语言模型 (LLMs) 至关重要。它不仅可以确保用户通过快速生成速度获得最佳体验，还可以通过 token 的高生成率和资源利用率降本增效。如今，开发者可以选择多种由知名研究和行业团队创建的推理后端。但是，为特定用例选择最佳后端可能具有挑战性。

02

腾讯云&信通院共建，最新企业云原生降本增效指南大全来了！

降本增效从云计算发展至今一直都是企业上云最核心的关注点，无论是在线业务还是大数据、AI业务，都非常依赖算力的消耗，成本问题都是企业上云进行决策的核心因素。 2021年，腾讯云容器团队联动信通院，作业帮等合作伙伴一起基于一线的实践经验，共建了【降本之源——云原生成本管理白皮书】。与此同时，腾讯云燎原社，推出高端闭门会、云原生技术实战营等，致力于推动解决企业云原生改造最后一公里问题，真正帮助企业实践云原生技术应用，为业务带来降本增效。为帮助大家更好地学习和解决降本增效，小云把过去的降本增效全部内容进行了整合，

02

美团无人车引擎在仿真中的实践

本文首先会介绍无人车引擎的概念，并以仿真环境面临的挑战为线索介绍美团无人车引擎的核心设计。

02

LLM推理速度飙升23倍！Continuous Batching：解锁LLM潜力！

LLMs 在现实应用中的计算成本主要由服务成本所主导，但是传统的批处理策略存在低效性。在这篇文章中，我们将告诉你，为什么 Continuous Batching 连续批处理成为了解决这一问题的新方法，而不再把 LLMs 视为“黑匣子”。这个技术如何利用内存，而不是计算能力，来实现 10 倍以上的性能提升，将改变AI领域的游戏规则。

03

如何在NVIDIA Jetson上利用Triton简化部署并最大化推理性能？

昨天NVIDIA美国针对Triton on Jetson有一个讲座，我们看看都讲了哪些：

03

节点运维新范式，原生节点助力企业全链路降本

在云原生领域，Serverless 已然是大势所趋。相比 Serverful 模式(基于云服务器集群的K8s运维模式)，Serverless 模式屏蔽了资源概念，大幅提升运维效率。用户无需介入底层运维：像操作系统的安全补丁升级这样的动作，判断升级时机 - 升级前置检查 - 无损分批升级全部都由平台自动闭环。但 Serverless 真的适合所有场景么？其实不然。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭