我向Cloud ML Engine提交了一个训练任务,但由于内存不足错误而失败。如何为作业指定更多内存?
发布于 2018-05-28 16:54:58
如果您没有在Cloud ML Engine作业中指定--scale-tier,那么您使用的是BASIC,它是一台具有4 GB内存的单CPU机器。
要使用具有52 GB内存的8 CPU计算机,请执行以下操作:
(1)使用以下内容创建一个名为largemachine.yaml的文件
trainingInput:
scaleTier: CUSTOM
masterType: large_model
(2)将以下代码添加到ml-engine作业提交中:
gcloud ml-engine jobs submit training $JOB_NAME \
...
--scale-tier=CUSTOM \
--config=largemachine.yaml \
-- \
...
有关您可以使用的其他计算机类型(包括图形处理器类型),请参阅此页面:https://cloud.google.com/ml-engine/docs/tensorflow/machine-types#compare-machine-types
https://stackoverflow.com/questions/50570740
复制