
有一段时间没有Update知识,回望最熟悉的领域都已过时!
一:背景与说明
曾经在VDI类的Nvidia vGPU场景,每个GPU核心只能采用1种固定切分模式,例如Nvidia A40只有一个GA102的核心,就只能切分一种模式,48G显存要么切分12个A40-4Q,要么8个A40-6Q。 这也是过去很多用户尤其是高速发展的SMB用户诟病的一点,一个设计部门,有2个需要12Q,剩余的人只需要4Q,只能采购2张显卡,如果有更多需求,则还得增加更多显卡。
二:Nvidia vGPU混合大小模式(Mixed-Size Mode)
因此在Nvidia vGPU 18.0版本,英伟达开始支持混合大小模式,

下面为英伟达官方描述:
NVIDIA vGPU 软件支持在同一物理 GPU 上混合使用不同类型的时间片 vGPU。具有任意数量帧缓冲区的 A 系列、B 系列和 Q 系列 vGPU 的任何组合都可以同时驻留在同一物理 GPU 上。分配给物理 GPU 上 vGPU 的帧缓冲区总量不得超过物理 GPU 的帧缓冲区量。例如,以下 vGPU 组合可以同时驻留在同一个物理 GPU 上:A40-2B 和 A40-2QA40-2Q 和 A40-4QA40-2B 和 A40-4Q默认情况下,GPU 或 GPU 实例仅支持具有相同帧缓冲区量的 vGPU,因此处于等大小模式。要支持具有不同帧缓冲区量的 vGPU,必须将 GPU 或 GPU 实例置于混合大小模式。在混合大小模式下,GPU 或 GPU 实例上允许的某些类型的 vGPU 的最大数量小于等大小模式下的最大数量 |
|---|
默认情况下,GPU 或 GPU 实例仅支持具有相同帧缓冲区量的 vGPU,因此处于等大小模式。要支持具有不同帧缓冲区量的 vGPU,必须将 GPU 或 GPU 实例置于混合大小模式。在混合大小模式下,GPU 或 GPU 实例上允许的某些类型的 vGPU 的最大数量小于等大小模式下的最大数量
支持的Hypervisor类型:
虽然支持混合部署模式,但并非所有Hypervisor支持,根据最新Nvidia vGPU 19.5的描述,当前主要支持的Hypervisor信息如下:
Hypervisor | 版本要求 |
|---|---|
VMware vsphere | 8.0U3或更新版本9.0或更新版本 |
XenServer | 8.4 |
Ubuntu | 20.0422.0424.04 |
Redhat KVM | 10.09.6, 9.48.10 |
Note:
支持在同一物理 GPU 上混合使用不同类型的时间片 vGPU。A 系列、B 系列和 Q 系列 vGPU 的任意组合以及任意数量的帧缓冲区可以同时驻留在同一个物理 GPU 上。分配给物理 GPU 上 vGPU 的帧缓冲区总量不得超过物理 GPU 的帧缓冲区量。
例如,以下 vGPU 组合可以同时驻留在同一个物理 GPU 上:
支持的GPU型号:
支持从Volta架构(V100等)、Turing架构(T4、RTX 6000)及后续型号(如A40、L20、L40)以及最新的Blackwell架构(RTX PRO 6000)、等,覆盖了2017年以来发布的所有型号。
混合切分的限制与注意事项:
1. 调度模式:
Nvidia vGPU具有3种算力调度模式,在混合切分下会有部分模式不可用:
模式 | 默认切分 | 混合切分 |
|---|---|---|
调度模式 | •Best Effort(默认):为了多个VM的性能保证所以有了FPS限制•Equal:模式是多个VM算力均分,如切分4个vm情况下,关闭一个VM后,3个VM算力均分•Fixed:固定模式主要是公有云厂商会用,就是这个卡切分1/4就只有1/4的算力,其它会被空的时间片占用 | •Best Effort(默认):为了多个VM的性能保证所以有了FPS限制•Equal:模式是多个VM算力均分,如切分4个vm情况下,关闭一个VM后,3个VM算力均分 |
2. 重启影响:
三:配置Nvidia vGPU混合大小模式
下面以VMware为例,从vCenter的虚拟机配置界面现在多了一个vGPU Mode配置:
Same Size:传统的等额切分模式
Mixed Size: 新的混合切分模式

最后:希望国产桌面云越来越好!桌面云势必会成为AI时代 Agent Infra的复杂任务底座!