腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1232)
视频
沙龙
1
回答
使用
带有
tensorflow2.0
的
多个
gpu
训练
get
错误
:
超出范围
:
序列
结束
python
、
tensorflow
、
tensorflow2.0
我正在
使用
tensorflow2.0
和
多个
GPU
进行
训练
。它得到了以下
错误
。但如果我只
使用
一个
GPU
,它运行时没有任何
错误
。我
的
tensorflow版本是tensorflow-
gpu
-2.0.0:distributed_function ->
浏览 26
提问于2019-11-15
得票数 5
1
回答
使用
tensorflow时AWS g2.8x大性能和内存不足问题
python
、
tensorflow
、
deep-learning
、
recurrent-neural-network
我
使用
的
是
带有
Ubuntu 14.04
的
AWS g2.8xlarge,以及最近
的
每晚构建
的
tensorflow (我于8月25日下载)。从表面上看,CPU和
GPU
的
利用率都很低。我已经对此运行了
多个
测试(并在此过程中
使用
了line_profiler和memory_profiler )。
训练
持续时间与纪元数成线性关系,所以我用1个纪元进行测试。此外,除了一个vCPU之外,所有其他<e
浏览 15
提问于2016-09-08
得票数 2
3
回答
PyTorch代码以消息“被杀”
结束
。是什么杀了它?
linux
、
pytorch
我用Pytorch在
GPU
上
训练
一个网络。然而,在最多3个时代之后,代码以一条消息
结束
:没有提供其他
错误
消息。我监控了内存和
gpu
的
使用
情况,在运行过程中仍然有空间。我查看了/var/sys/dmesg,以找到与此有关
的
详细消息,但是没有输入
带有
“杀死”
的
消息。有什么问题吗? Cuda版本: 9.0火炬版本: 1.1.0
浏览 4
提问于2020-06-24
得票数 6
回答已采纳
1
回答
我应该直接返回dataset,还是应该
使用
one_shot迭代器?
python
、
tensorflow
、
iterator
、
pipeline
、
tensorflow-datasets
我正在
使用
Dataset API构建数据管道,但是当我
训练
多个
GPU
并在输入函数中返回dataset.make_one_shot_iterator().
get
_next()时,我得到 ValueError: dataset_fn() must return a tf.data.Dataset when using a tf.distribute.Strategy 我可以按照
错误
消息直接返回数据集,但我不理解iterator().
get
_next()
的
目
浏览 11
提问于2019-02-05
得票数 6
回答已采纳
1
回答
我们可以
使用
多
gpu
训练
来恢复一个由单个
gpu
训练
的
模型吗?
tensorflow
当我
使用
多个
gpu
加载单次
训练
的
模型时,我得到以下
错误
消息: with tf.Graph().as_default():for <e
浏览 2
提问于2016-06-07
得票数 0
1
回答
对于导致这个TensorFlow
错误
的
原因有什么想法吗?(对象从未被
使用
)
python
、
tensorflow
、
keras
我正在
使用
Tensorflow后端在Keras上
训练
序列
到
序列
模型,主要遵循教程。我在
带有
TensorFlow
GPU
的
Power8机器上
使用
P100 v1.2.1 Object我试图寻找未
使用
的
操作/张量,但找不到。然后,我标记了所
使用
的</
浏览 2
提问于2018-07-09
得票数 2
回答已采纳
2
回答
SageMaker与keras.utils.multi_
gpu
_model一起
使用
多
GPU
时失败
tensorflow
、
keras
、
amazon-sagemaker
使用
自定义模型运行AWS SageMaker,在多
gpu
配置中
使用
Keras加上Tensorflow后端时,TrainingJob在算法
错误
中失败: from keras.utils import multi_
gpu
_modelCloudWatch日志记录没有进一步
的
错误
或异常。这种配置正确地工作在本地机器与2x NVIDIA GTX 1080,同样
的
Keras Tensorflow后端。在没有后续
的
应用程序日志记录之后,Traini
浏览 1
提问于2018-11-26
得票数 0
回答已采纳
1
回答
添加
GPU
卡会自动缩放tensorflow
的
使用
吗?
tensorflow
、
deep-learning
、
gpu
、
scalability
假设我可以在我
的
带有
tensorflow
的
GTX 1070卡上
使用
样本大小N、批处理大小M和网络深度L进行培训。现在,假设我想
使用
更大
的
样本2N和/或更深
的
网络2L进行
训练
,并摆脱内存
错误
。插入额外
的
GPU
卡会自动解决这个问题(假设所有
GPU
卡
的
总内存量足以容纳批处理及其渐变)吗?还是说纯粹
的
坦索弗洛是不可能
的
?我读到
浏览 4
提问于2017-07-15
得票数 2
回答已采纳
1
回答
多
GPU
在n_jobs == 1在GridSearchCV中
的
意义
scikit-learn
、
keras
我一直在
训练
神经网络模型,
使用
Keras框架与4 NVIDIA
GPU
。(数据行计数:~160,000,列数: 5)。现在我想
使用
GridSearchCV来优化它
的
参数。但是,每当我试图将n_jobs更改为一个值以外
的
其他值时,就会遇到几个不同
的
错误
。
错误
,如Can not
get
device properties error code : 3 然后我读到了这个网页,&quo
浏览 0
提问于2018-09-03
得票数 4
1
回答
在
多个
GPU
上
训练
一个单火炬模型,其中有些层是固定
的
?
python
、
machine-learning
、
parallel-processing
、
gpu
、
pytorch
我在
使用
pytorch 时遇到了一些问题。情况是: 但有两个
训练
阶段。在第一阶段,我想修复 layer0和layer1 of B。在第二阶段,只为修复layer0。在
训练
过程中应改变layer1参数
的
layer1值。然而,DistributedDataPa
浏览 3
提问于2019-12-02
得票数 0
1
回答
如何修正"ResourceExhaustedError: OOM .“?
python
、
tensorflow
、
machine-learning
、
memory
、
keras
我正在尝试用Python和Keras一起用自己
的
数据集来
训练
一个简单
的
MLP。这个数据集包含一个1024x1204大小
的
规范化图像,我需要这个分辨率,因此我不能缩小图像
的
大小。,并在/job上键入float /job:localhost/replica:0/task:0/device:
GPU
:0时,分配器
GPU
__bfc为0 这个
错误
发生在第一层,所以在
训练
开始之前。我在朱莉娅<
浏览 0
提问于2019-08-17
得票数 0
3
回答
CUDA|
使用
Keras model.fit_generator内存不足
tensorflow
、
machine-learning
、
keras
、
deep-learning
、
gpu
我有一个具有通道最后配置
的
(300,226,226,3)形状
的
视频数据输入&我
的
输出是(300,1)存储为numpy数组格式。因为我不想一次加载所有的数据,因为它大约是120 it。我
的
代码非常简单:import sysimport tensorflow as tfvalidation_steps=len(val_ids), epochs=100, verbose=1, shuffle=Fa
浏览 0
提问于2019-12-02
得票数 0
1
回答
KSQL WARN警告:窗口
结束
时间被截断为Long.MAX是什么意思?
apache-kafka
、
ksqldb
我得到了ksql Warning:窗口
结束
时间在ksql SERVER.STDOUT中被截断为Long.MAX。我想知道这个警告是在什么场合被触发
的
,以及它
的
重要程度,因为生成这个警告
的
查询也从功能
的
角度提供了预期
的
结果。审查了ksql源代码-尝试理解处理
的
警告
的
预期含义及其重要性程度 查询工作正常-仅显示此警告:窗口
结束
时间在ksql-server.stdout中被截断为Long.MAX。
浏览 25
提问于2019-10-16
得票数 3
1
回答
高效、好、并行与
训练
相对应
的
LSTM
训练
研究
python
、
machine-learning
、
neural-network
、
keras
、
lstm
对于一个我打算自发地生成
序列
的
模型,我发现
训练
它
的
样本和保持状态之间
的
感觉是最自然
的
。在阅读了许多有用
的
资源之后,我成功地在Keras中构建了这个结构。然而,在咨询了我
的
任务管理器之后,它似乎只
使用
了我
的
GPU
资源
的
10%,这已经相当有限了。我想改进一下,以加快
训练
速度。增加批处理大小将允许并行计算。处于当前状态
的
网络可能会“记住”一些事情,甚至
浏览 0
提问于2018-08-08
得票数 0
回答已采纳
4
回答
当有
GPU
存在时,如何在TensorFlow中在一个脚本中
训练
多个
模型?
python
、
machine-learning
、
tensorflow
、
neural-network
在
训练
结束
时,假设我们只记录它
的
准确性,并去掉模型(如果你想假设模型经常被检查指向,那么直接扔掉模型并从头开始
训练
就可以了。)您还可以假设其他一些数据可能会被记录下来,比如特定
的
超视距、
训练
、验证、
训练
错误
等)。当
GPU
每次尝试新型号时,我是否需要清除/释放它?实际上,我并不太在意这些模型是否在
多个
GPU
中并行运行(这可能是一个很好
的
补充),但我希望它能够先连续运行所有的
浏览 3
提问于2017-02-23
得票数 29
回答已采纳
2
回答
Keras上
的
多
GPU
模型(具有状态
的
LSTM )不起作用
tensorflow
、
keras
、
lstm
、
multi-gpu
我正在
使用
有状态
的
keras (Tensorflow后端)处理LSTM模型,我不能在多
GPU
平台上并行化它。。我收到了跟随
错误
。false,recv_device="/job:localhost/replica:0/task:0/cpu:0",send_device="/job:localhost/replica:0/task:0/
gpu
sequential_1/dense_1/
浏览 4
提问于2017-11-08
得票数 1
1
回答
Tensorflow中
的
可扩展、高效
的
层次化软件?
tensorflow
、
softmax
例如,至少已经表明,当
使用
每个节点sqrt(N)类
的
2层树时,HS可以对大型语音达到~25x加速。我还对具有任意分支因子
的
任意深度树
的
更一般版本感兴趣。这就产生了大批大小和胖树
的
问题,现在这些系数被复制了很多,导致OOM
错误
。2)与#1类似,我们可以
使用
tf.embedding_lookup,它可以保持对OOM
错误
的
帮助,但是现在将所有的东西都保存在CPU上,并使事情慢下来很多。3)
使用
tf.map_fn和paral
浏览 5
提问于2017-05-23
得票数 22
0
回答
Python (Pytorch)多处理抛出
错误
:对等设备重置连接和找不到文件
python
、
multiprocessing
、
pytorch
通过让CPU与
GPU
并行工作(而不是让CPU抓取批处理,并让
GPU
在
训练
该批处理之前等待CPU ),我应该能够将我
的
训练
时间减少大约一半。我已经对CPU抓取一个小批量
的
时间进行了基准测试,它花费
的
时间与我
的
GPU
在一个小批量上
训练
所需
的
时间相当,所以并行CPU和
GPU
应该可以工作得很好。因此,我尝试
使用
torch.multiprocessing模块来做我想做<em
浏览 10
提问于2017-12-12
得票数 4
2
回答
是否有一种方法可以直接将图像数据从主文件夹加载到培训和验证生成器,而不是再次创建单独
的
相同文件夹?
python
、
tensorflow
、
machine-learning
、
keras
、
deep-learning
我正在研究一个多类分类模型--它有4000
多个
类--这意味着每个类有4000
多个
文件夹--每个类占用大约30 of
的
空间,为了
训练
分类模型,我要将图像复制到每个类
的
训练
和验证文件夹中,以便在一个分类文件夹结构中我
使用
keras中
的
ImageDataGenerator API加载数据,并向模型提供如下所示
的
训练
train_generator = train_datagen.flow_from_directory
浏览 3
提问于2021-09-04
得票数 1
回答已采纳
1
回答
如何让CUDA在内核启动后返回控制权?
asynchronous
、
cuda
这可能是一个愚蠢
的
问题,但是有没有一种从内核异步返回
的
方法?例如,我有这样一个内核,它执行第一个流压缩,输出给用户,但在它必须执行第二个流压缩以更新其内部结构之前。有没有办法在第一次流压缩完成后将控制权交还给用户,同时
GPU
在后台继续进行第二次流压缩?当然,第二个流压缩只在共享内存和全局内存上工作,而不是用户应该检索
的
内容。 我不能用推力。
浏览 1
提问于2021-04-02
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券