NVIDIA推出的Launchables功能,这是一个旨在简化AI开发流程、加速实验和部署的一键式部署GPU开发环境。NVIDIA通过提供预配置的GPU计算环境,使开发者能够快速启动参考工作流程并开始构建,从而降低了AI开发的复杂性和时间成本。
一键部署:
Launchables提供了预定义的配置,使开发者能够一键启动并运行工作流程。
这些环境包含了实现特定目的所需的所有必要组件,如GitHub仓库或Jupyter笔记本,这些都被自动设置并挂载在GPU实例上。
一致性和可重复性:
对于团队协作或跨多个环境工作的个体开发者,Launchables确保了设置的一致性和可重复性,无需手动配置和额外的开销。
通过共享Launchable的URL,开发者可以确保任何终端用户都能获得相同的开发环境,从而消除了“在我的机器上工作”的场景。
支持多种AI工作负载:
Launchables支持通过细致的环境定制来满足不同AI工作负载的需求。
开发者可以根据需要定制环境,包括CUDA驱动、框架版本等,以适应特定的硬件和软件配置。
促进协作和分享:
Launchables简化了协作过程,允许任何人通过单个URL共享完整的开发环境。
这对于开源维护者、教育工作者或内部项目团队成员来说特别有价值,因为他们可以跟踪部署指标,了解其他人如何使用他们的环境。
实例一:Megatron-LM Launchable:
提供了一个8xH100 GPU节点环境,包含PyTorch、CUDA和Megatron-LM设置。
开发者可以立即调整不同的参数,如张量模型并行大小和管道模型并行大小,以确定哪种并行技术最适合其特定的模型大小和预训练要求。
实例二:pdf-ingest-blueprint Launchable:
包含一个Jupyter笔记本,为企业合作伙伴设置PDF数据提取管道。
通过NVIDIA-Ingest微服务和各种NIM微服务,可以设置一个生产级管道,以并行化文档拆分和大规模PDF数据集的测试检索。
实例三:Run Llama3 Inference with TRT-LLM Launchable:
提供了一个Jupyter笔记本指南,用于演示如何部署Llama3与TensorRT-LLM进行低延迟推理。
这包括将模型转换为ONNX中间表示、通过构建配置创建底层运行时(实现注意力机制和矩阵乘法操作的优化插件),并部署TensorRT引擎以在输入令牌上运行推理。
Launchables让您能够轻松打包、版本控制和即时部署精确的配置,从而极大地减少了传统上在共享和复现GPU开发环境时所遇到的阻碍。团队可以花费更少的时间在基础设施设置上,而将更多时间投入到AI应用的开发中。
NVIDIA目前正在积极扩展在build.nvidia.com上可即时使用的Launchables,随着新的NIM微服务以及其他NVIDIA软件、SDK和库的发布,您将拥有更多选择。立即探索吧!