腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(541)
视频
沙龙
1
回答
tensorflow
worker
driver
培训
流程
如何
更新
ps
作业
中
的
变量
?
我正在阅读
tensorflow
代码,并遇到了这个答案 非常想知道细节?
浏览 1
提问于2018-01-18
得票数 2
1
回答
分布式
Tensorflow
:因OOM而死亡
的
工人
、
我正在运行类似于
的
分布式
tensorflow
培训
,但使用这个设备设置器: cluster
ps
作业
仅在CP
浏览 6
提问于2016-05-24
得票数 0
回答已采纳
3
回答
异步训练
如何
在分布式
Tensorflow
中
工作?
、
、
、
、
我读过,它提到在异步训练
中
, 图
的
每个副本都有一个独立
的
训练循环,没有协调地执行。据我所知,如果我们使用具有数据并行结构
的
参数服务器,这意味着每个工作人员计算梯度并
更新
自己
的
权重,而不关心其他工作人员对分布式训练神经网络
的
更新
。由于所有权重都是在参数服务器(
ps
)上共享
的
,我认为
ps
仍然必须以某种方式协调(或聚合)所有工作人员
的
权重
更新
。我想知道在异步<em
浏览 3
提问于2017-03-31
得票数 27
回答已采纳
2
回答
你能解释一下分布式
Tensorflow
教程
的
例子吗?
、
、
我对分布式计算
的
世界还是比较陌生
的
。我正在阅读官方
tensorflow
教程
中
的
,但我对教程
的
主要示例中发生
的
事情感到相当困惑。 特别是,
ps
作业
和工作人员是
如何
交互
的
?
ps
作业
的
作用到底是什么?它们在代码
中
的
相应部分相当有限,而且它们似乎没有做太多事情,那么它们
的
目的是什么呢?我想我不明白我们
浏览 0
提问于2017-09-06
得票数 0
1
回答
分布式
TensorFlow
[异步,图间复制]:这正是工作人员和服务器之间有关
变量
更新
的
交互
、
、
、
我读过和,但对于使用
TensorFlow
及其参数服务器体系结构所能完成
的
分布式
培训
背后
的
动态,我仍然有一些疑问。这些读取与任何并发写入都不协调,并且没有获得锁:特别是,工作人员可能看到来自一个或多个其他工作人员
的
部分
更新
(例如,来自另一个工作人员
的
更新
的
子集可能已经应用,或者
变量
中
的
元素
的
子集可能已经被
更新
)。工作人员将每个
变量
浏览 1
提问于2018-03-07
得票数 3
回答已采纳
1
回答
SageMaker上
的
Tensorflow
参数服务器
、
、
我试图了解参数服务器(
PS
)是
如何
在亚马逊SageMaker上
的
Tensorflow
中进行分布式
培训
的
。
的
文档,似乎可以使用设备作用域将
变量
分配给特定
的
工作人员。但是,在SageMaker上运行
培训
作业
时,我从未见过这样
的
情况。不知何故,
Tensorflow
或SageMaker容器能够决定每个层
的
变量
应该存储在哪里。但是,我在容
浏览 4
提问于2020-02-10
得票数 0
回答已采纳
1
回答
为什么要使用tf.train.Server并行执行多个tf.Session()?
、
、
、
、
并行执行多个tf.Session()
的
官方方法是使用tf.train.Server,如中所述。另一方面,下面的工作是针对Keras
的
,并且可以修改为
Tensorflow
,而不需要根据使用。def _training_
worker
(train_params): model = obtain_model(train_params) training_process = multipr
浏览 0
提问于2018-01-31
得票数 3
回答已采纳
1
回答
Tensorflow
变量
不使用图复制之间
的
初始化。
、
、
、
= logging.getLogger(__name__) PARAMETER_SERVER = "
ps
" $
浏览 3
提问于2017-03-29
得票数 5
回答已采纳
1
回答
tensorflow
分布式训练
中
的
旗帜和解析器
、
、
、
、
所以我试着学习在
tensorflow
的
分布式训练。为了练习自己,我尝试了来自
的
代码import sys
worker
_hosts = FLAGS.
worker
_hosts.split(",") # Create a
浏览 0
提问于2018-05-10
得票数 1
回答已采纳
1
回答
估计器
的
分布式自定义模型函数
、
我正在尝试获得使用tf.contrib.learn.Estimator和自定义模型函数来执行分布式
培训
的
模型。我发现一些指出,新
的
Estimator“处理大多数复杂
的
分布式模型训练和评估逻辑”。这是否意味着各种工人/
ps
作业</e
浏览 2
提问于2017-05-12
得票数 0
回答已采纳
1
回答
同步图形复制需要多少会话对象?
、
当使用同步
的
图形复制时,我只调用tf.Session.run()一次。问题1:是否仍然必须为每个工作人员创建一个新
的
会话对象,并且必须将主服务器(调用tf.Session.run()
的
服务器)
的
URL作为会话目标传递?问题2:可以通过使用server.target为每个服务器获取会话目标,还是必须具体指定主服务器
的
URL?
浏览 2
提问于2016-09-02
得票数 1
回答已采纳
2
回答
CreateSession仍在等待工作线程
tensorflow
的
响应
(我们做了一些小调整,
更新
了一些不推荐使用
的
过程调用)。当我们使用自己
的
脚本运行程序时: python /home/alarm/src/
tensorflow
/tf_mnist_example/examples.py --
作业
名称=“
ps
”--索引数据=0&对于{1..7}
中
的
i,执行ssh _ -o "BatchMode yes“alarm@rpi0$i python
浏览 2
提问于2017-04-12
得票数 0
1
回答
如何
在远程机器上使用分布式
Tensorflow
?
、
、
、
我正在尝试跨三台机器运行一个分布式
Tensorflow
脚本:运行参数服务器
的
本地机器和两台我可以访问正在运行
的
工人
作业
的
远程机器。我正在跟踪
Tensorflow
文档
中
的
,将IP地址和唯一端口号传递给每个工人
作业
,并将tf.train.Server
中
的
protocol选项设置为'grpc'。此代码导致两个问题: 这两个工人
的
工作都会出现错误,无法从另一个工作<
浏览 0
提问于2018-04-10
得票数 0
1
回答
Tensorflow
:在分布式训练中使用参数服务器
、
还不完全清楚参数服务器
如何
知道在分布式张量流
培训
中
应该做什么。例如,在此
中
,以下代码用于配置参数服务器和工作任务: server.join() ##some training code server.join()
如何
指示给定
的
任务应该是参数服务器?参数是否服务于任务
的</
浏览 2
提问于2016-12-05
得票数 4
回答已采纳
1
回答
工人和参数服务器在分布式
TensorFlow
中
的
位置?
、
在这个中,有人提到: TL;DR:
TensorFlow
对“参数服务器”一无所知,但它支持在不同进程
中
跨多个设备运行图形。这些进程中有一些设备
的
名称以"/job:
ps
"开头,这些设备保存
变量
。工作人员驱动
培训
过程,当他们运行train_op时,将导致"
浏览 3
提问于2017-05-17
得票数 4
1
回答
在GCP Dataproc上
的
Keras模型上使用分布式
Tensorflow
、
、
、
、
我对GCP上
的
云计算完全陌生。我在创建集群时安装了TonY (
Tensorflow
on Yarn),以便能够在集群上运行
tensorflow
。为了在我
的
keras模型上运行分布式
tensorflow
,我不得不创建tf.train.ClusterSpec部分。什么是
worker
和
ps
节点,以及
如何
将它们引用到我在GCP Dataproc
中
创建
的
集群
中
的
主节点和辅助节点。当我也创建一
浏览 0
提问于2019-02-21
得票数 3
回答已采纳
2
回答
Tensorflow
和Hadoop部署
、
由于Hadoop Cloudera部署在基础架构节点和数据节点中工作,
Tensorflow
应该使用相同
的
硬件配置部署在哪里?在基础设施节点还是数据节点?因为
Tensorflow
需要GPU,所以需要知道在哪里部署,这样我才能知道要添加GPU
的
节点。
浏览 1
提问于2017-04-06
得票数 0
1
回答
如何
在分布式
Tensorflow
中
实现"DistBelief“架构
、
、
据我所知,"
worker
“和"
PS
”之间会有很多通信开销。原因是每个工人没有存储在"
PS
“
中
的
那些”
变量
“
的
本地副本,这实际上在训练期间引入了更多
的
通信,以从"
PS
”检索
变量
,计算中间结果并将它们发送回"
PS
“以
更新
这些张量”
变量
“。现在,如果我们不遵循规则,我们将采用"DistBelief“架构:所有共
浏览 0
提问于2017-10-07
得票数 0
1
回答
tensorflow
分布式过程
中
的
任务分配
我对
tensorflow
的
分布式训练过程感到困惑。如果我只有两个工人,我认为正确
的
过程应该是这样
的
。为什么
worker
1不打印步骤200?
tensorflow
<e
浏览 5
提问于2016-12-09
得票数 5
1
回答
在sagemaker中使用带有对象检测API
的
张紧板
、
、
、
、
使用,我成功地在码头容器中使用
Tensorflow
对象检测API创建了一个关于sagemaker
的
培训
作业
。现在我想用sagemaker来监控
培训
工作,但是找不到任何解释该
如何
做
的
东西。我想我可以通过将日志保存到一个S3桶
中
,并指向一个本地
的
张量板实例。但是不知道
如何
告诉
tensorflow
对象检测API在哪里保存日志(这有命令行参数吗?)事实是,当我开始
培训
工作时,在工作完成并上
浏览 2
提问于2020-05-25
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大规模分布式模型训练(02):TensorFlow分布式模型训练原理
TensorFlow分布式计算机制解读:以数据并行为重
vivo AI计算平台弹性分布式训练的探索和实践
奇虎360开源深度学习调度平台 XLearning!
如何落地TensorFlow on Kubernetes?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券