开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

训练批量大、GPU数量少的MXNet

MXNet是一个开源的深度学习框架，它提供了高效的计算和灵活的编程接口，适用于训练批量大、GPU数量少的场景。

MXNet的特点包括：

高效的计算：MXNet采用了动态计算图的方式，可以根据数据和模型的特点自动优化计算图，提高计算效率。同时，MXNet支持异步计算，可以在计算过程中进行数据预处理和模型更新，进一步提高训练速度。
灵活的编程接口：MXNet支持多种编程语言，包括Python、R、Scala和C++，开发者可以根据自己的喜好和需求选择合适的语言进行开发。MXNet还提供了简洁的符号API和灵活的命令式API，方便开发者进行模型定义和训练。
跨平台支持：MXNet可以在多种硬件平台上运行，包括CPU、GPU和云端服务器。它提供了与各种硬件和操作系统的兼容性，可以在不同的环境中进行模型训练和推理。
多样化的应用场景：MXNet适用于各种深度学习任务，包括图像识别、自然语言处理、推荐系统等。它提供了丰富的预训练模型和工具库，可以帮助开发者快速构建和部署深度学习应用。

对于训练批量大、GPU数量少的场景，可以使用MXNet的分布式训练功能和混合精度计算技术来提高训练效率。MXNet支持将计算任务分布到多台机器上进行并行计算，可以充分利用集群资源进行大规模训练。同时，MXNet还支持混合精度计算，可以在保持模型精度的同时减少计算量，提高训练速度。

腾讯云提供了MXNet的云端支持和相关产品，包括：

腾讯云AI引擎：提供了MXNet的云端部署和管理服务，可以帮助开发者快速搭建和运行MXNet模型。
腾讯云GPU实例：提供了多种配置的GPU实例，可以满足不同规模和需求的深度学习训练任务。
腾讯云容器服务：提供了容器化部署和管理的平台，可以方便地部署MXNet模型和训练任务。

更多关于腾讯云MXNet相关产品和服务的详细信息，可以访问腾讯云官方网站：https://cloud.tencent.com/product/mxnet

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

2048块GPU再次加速SGD：富士通74.7秒完成ResNet-50 训练

这一次，来自富士通的研究人员用上了 2048 块 GPU，以 81,920 的批量大小用 74.7 秒完成了 ResNet-50 训练。...所以，研究人员使用了几项技术来增加批量大小（每次迭代中计算的输入图像数量），同时不影响验证准确率。...批归一化层均值和方差的移动平均值（moving average）在每一进程中单独进行计算，其中权重也是同步的。...2）GPU 上的批量范数计算：每层的范数计算都是必要的，以使用 LARS 更新权重。与 GPU 上的内核数量相比，ResNet-50 网络的大部分层没有足够数量的权重。...如果我们计算 GPU 上每层的权重范数，就会发现线程的数量不足以占据所有 CUDA 内核。因此，研究人员实现了一个特殊的 GPU 内核，以在 MXNet 中批量进行范数计算。

6352 0

学界 | Facebook「1小时训练ImageNet」论文与MXNet团队发生争议，相关研究介绍

——一种将批量大小提高的分布式同步 SGD 训练方法，希望能有助于解决越来越长的训练时间。...去年 11 月 23 日，亚马逊宣布将 MXNet 作为其深度学习主要框架，此时的 MXNet 团队已经表示他们正在使用越来越多的 GPU 训练图像分析算法 Inception v3（在 MXNet 中实现并在...MXNet 团队当时表示，该框架不仅具有所有已知库中最快的吞吐量（每秒训练的图像数量），而且吞吐量提高几乎与用于训练的 GPU 数量成正比（比例为 85 ％）。...实验在多台机器上执行，但这些机器的 GPU 总数量均为 8 块。...在把 GPU 数量从 8 个增加到 80 个之后，批尺寸也从 256 增加到了 2560。我们改变了原始学习速度（从 0.1 改为 0.5）。

1.4K7 0

英伟达DALI加速技巧：让数据预处理速度比原生PyTorch快4倍

开发人员可以在 GPU 上运行他们的数据处理通道，从而减少训练神经网络的时间。...DALI 在 MXNet 上训练 ResNet50 的性能表现。使用 DALI 重构数据预处理 pipeline 内存占用大是 DALI 在加速数据预处理中面对的一个重要问题。...其主要原因在于，GPU pipeline 会降低近一半的批大小。为了解决这个问题，作者建议将验证 pipepline 从 GPU 中关掉，直到每个 epoch 的最后需要的时候再开启。...效果评价以下是作者在 ResNet18 中使用的最大批量大小： ?...因此通过合理应用这一系列修改，DALI 可以使得最大批量大小在 CPU 或 GPU 模式下提升 50% 而在 Shufflenet V2 0.5 上，如果批大小为 512，则 DALI GPU 和 CPU

1.4K3 0

英伟达DALI加速技巧：让数据预处理速度比原生PyTorch快4倍

开发人员可以在 GPU 上运行他们的数据处理通道，从而减少训练神经网络的时间。...DALI 在 MXNet 上训练 ResNet50 的性能表现。使用 DALI 重构数据预处理 pipeline 内存占用大是 DALI 在加速数据预处理中面对的一个重要问题。...其主要原因在于，GPU pipeline 会降低近一半的批大小。为了解决这个问题，作者建议将验证 pipepline 从 GPU 中关掉，直到每个 epoch 的最后需要的时候再开启。...效果评价以下是作者在 ResNet18 中使用的最大批量大小： ?...因此通过合理应用这一系列修改，DALI 可以使得最大批量大小在 CPU 或 GPU 模式下提升 50% 而在 Shufflenet V2 0.5 上，如果批大小为 512，则 DALI GPU 和 CPU

1K1 0

资源 | 从VGG到ResNet，你想要的MXNet预训练模型轻松学

选自AWS Blog 作者：Julien Simon 机器之心编译参与：Pedro、路本文介绍了如何利用 Apache MXNet 预训练出的多个模型。...每个模型在特定图像上的表现略有不同，训练多个模型旨在找出更适合特定任务的模型。在这篇博文中，你将会了解如何使用 Apache MXNet 预训练出的多个模型。为什么要尝试多个模型呢？...MXNet 将此称为检查点。在每个训练 epoch 之后保存权重是个好习惯。一旦训练完成，我们可以查看训练日志，然后选择最佳 epoch 的权重，最优 epoch 即具有最高验证准确度的 epoch。...224 x 224 是图像分辨率：模型就是使用这个分辨率的图像来训练的。3 是通道数量：红色、绿色和蓝色（按此顺序）。1 是批量大小：一次预测一个图像。...支持的错误，有可能是你的机器没有配置 GPU，或者你使用的 MXNet 版本尚未提供 GPU 支持（USE_CUDA=1）。

1.2K4 0

MXNet 宣布支持 Keras 2，可更加方便快捷地实现 CNN 及 RNN 分布式训练

我们可以使用 Keras-MXNet 存储库的示例的部分 Keras 2 脚本。用 MXNet 作为 Keras 的后端只需要对脚本进行非常少的更新。...该脚本调用 multi_gpu_model API 并传递要使用的 GPU 数量。...其次，在终端窗口中运行 nvidia-smi 以确定 DLAMI 上可用的 GPU 数量。在下一步中，如果您有四个 GPU，您将按原样运行脚本，否则运行以下命令打开脚本进行编辑。...$ vi cifar10_resnet_multi_gpu.py 该脚本以下行可以定义 GPU 的数量，如果有必要的话可以更新它： model = multi_gpu_model(model, gpus...通过在该表中描述的 CPU，单 GPU 和多 GPU 机器上使用各种模型和数据集，您可以看到 Keras-MXNet 具有更快的 CNN 训练速度，以及跨多个 GPU 的高效缩放，这将显示在训练速度的条形图中

5847 0

Facebook推出数据并行训练算法FSDP：采用更少的GPU，更高效地训练更大数量级的模型

我们最近的一部分成果包括了层内模型并行、流水线模型并行、优化器状态 + 梯度分片和多专家模型等领域的工作，旨在提升为任意数量的任务训练高级 AI 模型的效率。...有了 FSDP 后，我们现在可以使用更少的 GPU 更高效地训练更大数量级的模型。FSDP 已在 FairScale 库中实现，允许工程师和开发人员使用简单的 API 扩展和优化他们的模型训练。...例如，典型的数据并行训练需要在每个 GPU 上都维护模型的冗余副本，而模型并行训练需要在 worker（GPU）之间移动激活，从而引入额外的通信成本。相比之下，FSDP 牺牲的东西相对较少。...我们期待能开发出自动调优 GPU 内存使用和训练性能的算法。除了训练之外，更具扩展性的推理和模型服务是 FSDP 可能需要支持的一个重要用例。...扫描下方二维码填写申请，成为作者开启你的创作之路吧~ 点个在看少个 bug

1.1K1 0

评测 | 谷歌 TPU 二代来了，英伟达 Tesla V100 尚能战否？

实验设置我们用四个 TPUv2 芯片（来自一个 Cloud TPU 设备）对比四个英伟达 V100 GPU，两者都具备 64GB 内存，因而可以训练相同的模型和使用同样的批量大小。...然而，我们发现 MXNet 或者 TensorFlow 实现直接拿来使用的话，在多 GPU 和对应的大训练批量下并不能很好地收敛。这就需要加以调整，尤其是在学习率的设置方面。...批量大小为「global」总计的，即 1024 意味着在每个步骤中每个 GPU / TPU 芯片上的批量大小为 256 当批量大小为 1024，两者在数据吞吐速度中并无实际区别！...根据英伟达的官方建议，我们还在 MXNet 上使用 GPU 做了一个实验，使用的是 Nvidia GPU Cloud 上提供的 Docker image (mxnet:18.03-py3) 内的 ResNet...但是，就像上面那样，在批量大小同为 168 时，多 GPU 上 MXNet 收敛得并不好，这也是我们为什么关注两者在 TensorFlow 实现上的表现情况，包括下面提及的也是一样。

1.7K1 0

为了加速在GPU上进行深度学习训练，NVIDIA原来还做了这么多事情，你都知道么?

优化的框架 MXNet 这个最新的版本在很大程度上改进了训练深度学习模型的性能，在这种模型中，GPU的训练性能在大范围的批处理大小中进行优化是至关重要的。...研究表明，在最终的训练精度开始下降之前，所有处理器的总训练批大小是有限制的。因此，当扩展到大量GPU时，添加更多的GPU会在达到总批处理大小限制后降低每个GPU处理的批处理大小。...以前，MXNet框架在每次操作之后都同步GPU和CPU。当对每个GPU进行小批处理的训练时，这种重复同步的开销会对性能产生负面影响。...这些优化使得在使用18.11 MXNet容器在单个Tesla V100 GPU上使用张量核心混合精度在批量大小为32的批量训练ResNet-50时，吞吐量为1060张图像/秒，而使用18.09 MXNet...提高Volta张量核性能的一个关键是减少训练模型时所需的张量置换的数量，如前一篇博文所述。张量核卷积的自然张量数据布局是NHWC布局。

2.3K4 0

Intel为什么强调NVIDIA Tensor Core GPU非常适合推理

据Anandtech称，为了实现单一主流NVIDIA V100 GPU的性能，英特尔将两款耗电量大的高端cpu组合在一起，估计售价在5万至10万美元之间。...英特尔的性能比较还突出了为推理而构建的NVIDIA T4 gpu的明显优势。与单台最高端的CPU相比，它们不仅速度更快，而且能效提高了7倍，成本效率提高了一个数量级。...然而，它很难与NVIDIA深度学习优化Tensor Core GPU 竞争。简单地说，推理(也称为预测)是神经网络经过训练后所做的“模式识别”。...在计算机视觉方面，如下表所示，当比较相同数量的处理器时，NVIDIA T4速度更快，省电7倍，价格也便宜得多。NVIDIA V100是为人工智能训练而设计的，在推理方面比cpu快两倍，节能两倍。...注意:批大小为4的结果产生了最好的CPU得分。

3K2 0

字节跳动开源高性能分布式训练框架BytePS，支持PyTorch、TensorFlow等

机器之心报道参与：戴一鸣、思源最近，字节跳动发布了一款通用高性能分布式训练框架 BytePS，该框架支持TensorFlow、Keras、PyTorch 和 MXNet，并且可以在 TCP 或 RDMA...根据该项目的 GitHub 页面，BytePS显著优于目前的开源分布式训练框架。例如在流行的公有云和同样数量 GPU 上，BytePS 的训练速度可以达到Horovod (NCCL) 的两倍。...例如在流行的公有云和同样数量 GPU 上，BytePS 的训练速度可以达到 Horovod (NCCL) 的两倍。...测试使用了 Tesla V100 16GB GPU 集群，批大小都是 64。机器使用的是公有云上的虚拟机，每个机器有 8 个 GPU，集成了 NVLink。...假设你使用 MXNet，并想尝试 ResNet50 的基本模型。

1.1K1 0

富士通 1.24min 训练ImageNet，刷新Google 1.8min记录！

在对 large mini-batch 进行训练时，SGD 更新的数量随着小型批大小的增加而减少，因此提高 large mini-batch 的最终验证精度是一个很大的挑战，本文采用了以下技术。...框架优化我们使用了 MXNet，MXNet 具有灵活性和可扩展性，能够在集群上高效地训练模型。然而，在中小型集群环境中只占总时间的一小部分的处理方式可能成为大规模集群环境中的瓶颈。...2) GPU 上的 Batch Norm 计算：每层的 norm 计算都需要使用 LARS 更新权重。与 GPU 上的内核数量相比，ResNet-50 的大多数层没有足够的权重。...如果我们在 GPU 上计算每一层的 weight norm，线程数不足以占据所有 CUDA 核心。因此，我们实现了一个特殊的 GPU 内核，用于 batched norm 计算到 MXNet。...我们还测量了 ResNet-50 的可扩展性。图 2 显示了根据 GPU 数量计算的吞吐量。在图 2 中，虚线表示理想的每秒图像吞吐量，实线表示我们的结果。

6572 0

74.7秒训练完ImageNet！刷新记录，2048 GPU暴力出奇迹

在对 large mini-batch 进行训练时，SGD 更新的数量随着小型批大小的增加而减少，因此提高 large mini-batch 的最终验证精度是一个很大的挑战，本文采用了以下技术。...框架优化我们使用了 MXNet，MXNet 具有灵活性和可扩展性，能够在集群上高效地训练模型。然而，在中小型集群环境中只占总时间的一小部分的处理方式可能成为大规模集群环境中的瓶颈。...2) GPU 上的 Batch Norm 计算：每层的 norm 计算都需要使用 LARS 更新权重。与 GPU 上的内核数量相比，ResNet-50 的大多数层没有足够的权重。...如果我们在 GPU 上计算每一层的 weight norm，线程数不足以占据所有 CUDA 核心。因此，我们实现了一个特殊的 GPU 内核，用于 batched norm 计算到 MXNet。...结论我们开发了一种新的技术，可以在大规模 GPU 集群上使用 large mini-batch，而不会降低验证精度。我们将该技术应用到基于 MXNet 的深度学习框架中。

1.1K3 0

刷新纪录 | 74.7 秒训练完 ImageNet！2048 GPU 暴力出奇迹

在对 large mini-batch 进行训练时，SGD 更新的数量随着小型批大小的增加而减少，因此提高 large mini-batch 的最终验证精度是一个很大的挑战，本文采用了以下技术。...框架优化我们使用了 MXNet，MXNet 具有灵活性和可扩展性，能够在集群上高效地训练模型。然而，在中小型集群环境中只占总时间的一小部分的处理方式可能成为大规模集群环境中的瓶颈。...2) GPU 上的 Batch Norm 计算：每层的 norm 计算都需要使用 LARS 更新权重。与 GPU 上的内核数量相比，ResNet-50 的大多数层没有足够的权重。...如果我们在 GPU 上计算每一层的 weight norm，线程数不足以占据所有 CUDA 核心。因此，我们实现了一个特殊的 GPU 内核，用于 batched norm 计算到 MXNet。...结论我们开发了一种新的技术，可以在大规模 GPU 集群上使用 large mini-batch，而不会降低验证精度。我们将该技术应用到基于 MXNet 的深度学习框架中。

7602 0

业界 | MXNet开放支持Keras，高效实现CNN与RNN的分布式训练

通过更新几行代码，Keras 开发人员可以利用 MXNet 的多 GPU 分布式训练功能来提高训练速度。保存 MXNet 模型是该版本的另一个宝贵功能。.../master/examples/cifar10_resnet_multi_gpu.py 脚本启用 multi_gpu_model API，并输入要使用的 GPU 数量。...然后，在终端窗口运行 nvidia-smi，以确定 DLAMI 上可用 GPU 的数量。...的数量。...按表中描述在 CPU、单个 GPU 和多 GPU 上使用不同的模型和数据集，你会发现 Keras-MXNet 训练 CNN 的速度更快，且在多个 GPU 上实现高效的性能提升。详见训练速度柱状图。

9243 0

富士通74.7秒在ImageNet上训练完ResNet-50

关于使用的计算资源，他们在ABCI 集群和优化的MXNet深度学习框架上使用2,048个GPU。...当使用 large mini-batch 训练时，SGD 更新数量会随着小批量的增加而减少。...所以，提高 large mini-batch 上最终验证准确率是一个很大的挑战，他们采用了学习速率控制：由于更新次数少，需要使用较高的学习速度来加速训练。...ImageNet 上 ResNet-50 的训练时间和 top-1 验证准确率。关于框架。其使用了MXNet，这是一个用C ++和CUDA C语言编写的开源深度学习框架。...MXNet具有灵活性和可扩展性，可以在集群上高效地训练模型。然而，在中小型集群环境中只占总时间的一小部分的处理可能成为大规模集群环境中的瓶颈。他们分析了CPU和GPU的性能，并找出了瓶颈。

5404 0

学界丨基准测评当前最先进的 5 大深度学习开源框架

MXNet：同样将mini-batch样本分配到所有GPU中，每个GPU向前后执行一批规模为M/N的任务，然后在更新模型之前，将梯度汇总。 TensorFlow：在每个GPU上放置一份复制模型。...GPU数量翻番时，CNTK和MXNet的可扩展性最佳，均实现了约35%的提速，caffe实现了大约28%的提速，而Torch和TensorFlow只有约10%。...GPU数量变为4个时，TensorFlow和Torch没有实现进一步的提速。而收敛速度往往随着GPU数量的增加而增快。...单个GPU时，Torch的训练融合速度最快，其次是Caffe、CNTK和MXNet，TensorFlow最慢。...当GPU的数量增加到4时，CNTK和MXNet的收敛速度率接近Torch，而Caffe和TensorFlow收敛相对较慢。 ?

1.1K5 0

基准评测 TensorFlow、Caffe、CNTK、MXNet、Torch 在三类流行深度神经网络上的表现（论文）

MXNet：同样将mini-batch样本分配到所有GPU中，每个GPU向前后执行一批规模为M/N的任务，然后在更新模型之前，将梯度汇总。 TensorFlow：在每个GPU上放置一份复制模型。...GPU数量翻番时，CNTK和MXNet的可扩展性最佳，均实现了约35%的提速，caffe实现了大约28%的提速，而Torch和TensorFlow只有约10%。...GPU数量变为4个时，TensorFlow和Torch没有实现进一步的提速。而收敛速度往往随着GPU数量的增加而增快。...单个GPU时，Torch的训练融合速度最快，其次是Caffe、CNTK和MXNet，TensorFlow最慢。...当GPU的数量增加到4时，CNTK和MXNet的收敛速度率接近Torch，而Caffe和TensorFlow收敛相对较慢。

2K8 0

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

为了给读者一个关于结果的直观印象，我们遵循了每个网络的官方设置，如 VGG 的批大小是 128，Faster-RCNN 的项目内部有两个固有的网络，RPN 网络分支将生成多个建议（我们的设置是 256）...，这样批大小看起来就不会小。...考虑到不同框架之间的实现细节，批大小为 1 是最稳定的，读者复现起来也更容易，因此我们选择这个值。...在 ResNet-50 上进行训练时，MXNet 是最快的框架。执行 VGG-16 任务时，三个框架都充分利用了 GPU，但 TensorFlow 的样本训练速度最快，MXNet 速度最慢。...MXNet 在 GNMT 和 Word2Vec 训练中拥有最高的 GPU 内存利用时，而在 NCF 训练中，PyTorch 和 MXNet 的内存利用几乎可以忽略不计。

1.4K5 0

资源 | 一张速查表实现Apache MXNet深度学习框架五大特征的开发利用

对于已经使用此种框架的开发者而言，这也是一个不错的参考手册。 1. 一行代码支持多 GPU 训练在多个 GPU 上运行的能力是 MXNet 架构的核心部分，你只需要输入训练所用的设备列表。...例如，如果你有 3 个 GPU，每一个都接收到完整模型的副本，并且在每一个训练数据批次（training data batch）的三分之一中进行训练。...在多台计算机上进行训练 MXNet 是一种分布式深度学习框架，用于简化在单一服务器或多个服务器中进行的多 GPU 训练。...在 Amazon S3 中存储自定义数据迭代器和迭代数据在 MXNet 中，除了要返回一批数据，以作为包含 “n” 个有相关标注的训练数据的 DataBatch 对象（https://github.com...此屏幕快照展示了在 MXNet 中执行的原始 LeNet 架构 MNIST 训练数据集的配置文件。速查表 ? 现在你已经知道了 MXNet 的一些独有特征，你可能已经迫不及待要上手尝试了。

7896 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭