Google宣布推出Vertex Pipelines,供用户构建机器学习工作管线,来加速机器学习工作流程。Vertex Pipelines为一个无服务器服务,能够执行由Kubeflow Pipelines(KFP)或TensorFlow Extended(TFX)开源函数库所定义的工作管线。
Google解释,要扩展机器学习工作流程最好的方式,是将工作流程以工作管线的方式运行,每个工作管线的步骤,都是机器学习过程的各个部分,工作管线能够在企业中进行生产、共享,并且可靠地复制机器学习工作流程,Google认为,工作管线也是MLOps的关键,用户可以构建系统来自动重新训练和部署模型。
而机器学习工作管线便是将机器学习流程,封装成一系列步骤,工作管线中的每一步骤都是一个容器,每一步的输出都可作为下一步骤的输入,但这样的方法会出现两个问题需要解决,第一是用户需要将每个步骤转换成为容器,第二则是需要配置基础设施来大规模执行工作管线。
第一个问题可以使用开源函数库解决,KFP和TFX可将工作管线步骤转换成为容器,并且管理工作管线中的输入和输出,因此用户可以使用KFP和TFX来定义工作管线,并在Vertex Pipelines上执行。另外,Vertex Pipelines是完全无服务器服务,因此就能解决第二个问题,当用户上传执行KFP或TFX工作管线时,Vertex AI能够处理配置和扩展基础设施。
Vertex Pipelines、Vertex AI以及其他Google工具紧密集成,因此用户的机器学习工作管线,可以从BigQuery导入资料开始,使用Vertex AI训练模型,接着在Cloud Storage存储工作管线构件,最后获取模型评估指标,并且将模型部署到Vertex AI端点,这些步骤都可以在Vertex Pipeline中配置。Google也创建了一个Vertex Pipelines预构建组件库,这些组件将有助于简化在工作管线中,执行Vertex AI其他部分的过程,像是创建资料集或是训练AutoML模型。
Google提到,要借由工作管线来产生每部分的输出,需要有一种机制,跨工作管线执行创建指标和关注构件,当团队中有多人参与开发和执行工作管线,或是对不同机器学习任务,管理多个工作管线时,这样的机制会更加有用。而Google则通过集成Vertex Pipelines和Vertex ML的元数据,来实现自动化构件和指标等关注,用户在Vertex AI控制台和Vertex AI SDK,都可以检查工作管线元数据。
领取专属 10元无门槛券
私享最新 技术干货