我想在GKE上运行分布式Tensorflow。您需要一个来自GKE设置的最多运行分布式TensorFlow的示例。你知道一个好的样品吗?
发布于 2016-06-09 16:36:13
OSCON和PyCon最近的一次研讨会(slides)涵盖了在Kubernetes上运行分布式TensorFlow (以及其他内容)。有一个包含必要配置脚本的GitHub repository和一个可用于与集群交互的Jupyter笔记本。
有关更多详细信息,请参阅研讨会,但基本思想是主进程、每个工作进程和每个参数服务器在大小为1的单独Kubernetes复制控制器中运行。Kubernetes为这些进程中的每个进程提供稳定的名称,您可以使用这些名称来构建tf.train.ClusterSpec
,并将不同的进程互连。
还有其他方法可以设置集群,这些方法需要更多配置,但本教程很好地介绍了如何在word2vec模型上设置同步训练。
发布于 2016-10-22 15:05:07
如果你想在谷歌的云平台上运行TensorFlow,一个选择就是Google Cloud Machine Learning。
https://stackoverflow.com/questions/37720799
复制相似问题