几周来,我一直在阅读ML在生产中的不同方法。我决定测试Kubeflow,并决定在GCP上测试它。我开始使用Kubeflow官方网站(这里是https://www.kubeflow.org/docs/gke/)上的guiidline在GCP上部署kubeflow。我遇到了很多问题,很难解决。我开始寻找一种更好的方法,我注意到GCP AI platfor
我正在遵循官方的AWS EKS 为Tensorflow模型训练设置一个分布式GPU集群,但遇到了一些问题。在使用eksctl创建新集群并验证网关节点上存在相应的~/.kube/config文件后,本教程将指导我在网关节点上执行操作,并使用它来初始化新应用程序:但是to "version:v1.18.9" cluster at address <cluster address>
ERROR No Ma
目前,我试图在本地jupyterlab服务器上使用kubeflow kale jupyter扩展,而没有安装Kubernetes和kubeflow,并试图在GCP AI管道服务器或任何其他Cloud管道服务器上运行我的代码管道我可以通过kubeflow管线SDK(因为它有添加主机名详细信息的功能)来完成这个任务。但是,当试图通过库贝弗-卡莱扩展来实现时,它不起作用。如我所知,我们需要提供Kubeflow管道服务器的主机名,这是我无法<