开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Tensorflow分布式训练在每个时期后暂停

TensorFlow是一个开源的机器学习框架，分布式训练是其重要的特性之一。在TensorFlow中，分布式训练可以通过将计算任务分配到多个设备或多个计算节点上来加速训练过程。

当进行TensorFlow分布式训练时，可以设置每个时期（epoch）后暂停训练的策略。这种策略可以用于监控训练过程中的性能指标、保存模型参数、进行模型评估等操作。暂停训练的时期可以根据具体需求进行设置，通常是根据训练过程中的性能表现或者预定的训练轮数来决定。

在每个时期后暂停训练可以带来以下优势：

模型参数保存：通过暂停训练，可以定期保存模型参数，以防止训练过程中的意外中断导致模型参数丢失。这样可以保证训练的连续性和可恢复性。
性能监控：在每个时期后暂停训练可以方便地监控训练过程中的性能指标，如准确率、损失函数值等。这样可以及时发现训练过程中的问题，并进行调整和优化。
模型评估：通过暂停训练，可以在每个时期后对模型进行评估，以了解模型在当前训练阶段的性能。这样可以帮助决策是否需要调整模型结构、超参数等。

在腾讯云的云计算平台上，可以使用TensorFlow分布式训练的相关产品和服务来实现每个时期后暂停训练的功能。例如，可以使用腾讯云的弹性GPU实例来加速分布式训练，使用腾讯云对象存储（COS）来保存模型参数，使用腾讯云监控来监控性能指标，使用腾讯云函数计算（SCF）来实现模型评估等功能。

更多关于腾讯云相关产品和服务的介绍，请参考以下链接：

需要注意的是，以上答案仅供参考，具体的产品选择和配置应根据实际需求和情况进行决策。

相关搜索:在每个时期对数据集的不同子集进行Tensorflow训练在tensorflow 1.x中，如何在每个训练时期保持模型的输出？Tensorflow for XOR在500个时期后无法正确预测在AMLS中使用Tensorflow进行分布式训练 Tensorflow在每个时期结束时都会停滞几秒钟如何在训练运行之间的中间层中更新每个时期的参数？(tensorflow急切执行)验证损失持续减少，而训练损失在3个时期后开始增加 CNTK训练速度在每个纪元后减慢在训练过程中，在每个时期之前，输出中的这个工件在哪里？Tensorflow -在训练后检索训练的前馈神经网络的权重/偏差在训练过程中，如何计算每个时期后的多类分类问题中的准确率、召回率？绘制训练数据集和测试数据集在每个时期的损失和准确性 g4dn.xlarge图形处理器上的tensorflow 2在8个时期后崩溃凯拉斯:如果我在训练了几个时期后重新编译我的模型会怎么样？如何在TensorFlow 2.0中使用tf.data应用程序接口在每个时期对数据进行混洗？在我的线性回归模型在Tensorflow.js中完成训练后，如何检索系数的值？在分布式执行开始后，如何将输入操作符添加到tensorflow图中？在TensorFlow中训练后没有更新变量，即使是在简单逻辑回归的均匀随机启动时也是如此

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Keras作为TensorFlow的简化界面：教程

周日 2016年4月24日由弗朗索瓦Chollet 在教程中。

深度学习框架简史 (A Brief History of Deep Learning Frameworks)

过去⼗年，机器学习（尤其是深度学习领域）涌现了⼤量算法和应⽤。在这些深度学习算法和应⽤涌现的背后，是各种各样的深度学习⼯具和框架。它们是机器学习⾰命的脚⼿架：TensorFlow和PyTorch等深度学习框架的⼴泛使⽤，使许多机器学习从业者能够使⽤适合领域的特定编程语⾔和丰富的构建模块更容易地组装模型。

02

TensorFlow与主流深度学习框架对比

TensorFlow是相对高阶的机器学习库，用户可以方便地用它设计神经网络结构，而不必为了追求高效率的实现亲自写C++或CUDA代码。它和Theano一样都支持自动求导，用户不需要再通过反向传播求解梯度。其核心代码和Caffe一样是用C++编写的，使用C++简化了线上部署的复杂度，并让手机这种内存和CPU资源都紧张的设备可以运行复杂模型（Python则会比较消耗资源，并且执行效率不高）。除了核心代码的C++接口，TensorFlow还有官方的Python、Go和Java接口，是通过SWIG（Simplified Wrapper and Interface Generator）实现的，这样用户就可以在一个硬件配置较好的机器中用Python进行实验，并在资源比较紧张的嵌入式环境或需要低延迟的环境中用C++部署模型。SWIG支持给C/C++代码提供各种语言的接口，因此其他脚本语言的接口未来也可以通过SWIG方便地添加。不过使用Python时有一个影响效率的问题是，每一个mini-batch要从Python中feed到网络中，这个过程在mini-batch的数据量很小或者运算时间很短时，可能会带来影响比较大的延迟。现在TensorFlow还有非官方的Julia、Node.js、R的接口支持。

02

深度学习框架简史：TF和PyTorch双头垄断，未来十年迎来黄金时期

过去十年，机器学习（尤其是深度学习）领域涌现了大量算法和应用。在这些深度学习算法和应用涌现的背后，是各种各样的深度学习工具和框架。它们是机器学习革命的脚手架：TensorFlow 和 PyTorch 等深度学习框架的广泛使用，使得许多 ML 从业者能够使用适合的领域特定的编程语言和丰富的构建模块更容易地组装模型。

02

【重磅】Google 分布式 TensorFlow，像 Android 一样带来 AI 复兴？

今天，Google 发布了分布式 TensorFlow。Google 的博文介绍了 TensorFlow 在图像分类的任务中，100 个 GPUs 和不到 65 小时的训练时间下，达到了 78% 的正确率。在激烈的商业竞争中，更快的训练速度是人工智能企业的核心竞争力。而分布式 TensorFlow意味着它能够真正大规模进入到人工智能产业中，产生实质的影响。 Google 今天发布分布式 TensorFlow 版本！即便 TensorFlow 在 2015 年底才出现，它已经吸引了全球机器学习开发者的目

04

IBM高级研发工程师武维：如何分布式训练深度学习模型？| 分享总结

AI 研习社按：随着深度学习神经网络规模越来越大，训练一个深度神经网络（Deep Neural Networks, DNNs）往往需要几天甚至几周的时间。为了加快学习速度，经常需要分布式的 CPU/GPU 集群来完成整个训练。本文就就来为大家简单简单介绍一下如何进行分布式训练深度学习模型。在近期 AI 研习社的线上公开课上，来自 IBM 系统部研发工程师武维博士为大家做了一期主题为「深度学习中的分布式训练」的在线分享，错过了直播的同学们如果看了本文有疑惑之处还可以到雷锋网(公众号：雷锋网) AI 慕课学院

05

TensorFlow巨浪中的巨人：大数据领域的引领者 TensorFlow实战【上进小菜猪大数据系列】

大数据时代的到来带来了海量数据的处理和分析需求。在这个背景下，TensorFlow作为一种强大的深度学习框架，展现了其在大数据领域中的巨大潜力。本文将深入探索TensorFlow在大数据处理和分析中的应用，介绍其在数据预处理、模型构建、分布式训练和性能优化等方面的优势和特点。

02

分布式TensorFlow编程模型演进

引言 TensorFlow从15年10月开源至今，可谓是发展迅猛，从v0.5到如今的v2.0.0-alpha，经历了无数个功能特性的升级，性能、可用性、易用性等都在稳步提升。相对来说，对于我们工业界，大家可能更关注分布式TensorFlow的发展，本文尝试梳理下分布式TensorFlow从问世到现在经历过的变迁。分布式TensorFlow运行时基本组件用户基于TensorFlow-API编写好代码提交运行，整体架构如下图所示。 [ dist-tf ] Client 可以把它看成是TensorFlo

03

Tensorflow框架是如何支持分布式训练的？

大数据时代的互联网应用产生了大量的数据，这些数据就好比是石油，里面蕴含了大量知识等待被挖掘。深度学习就是挖掘数据中隐藏知识的利器，在许多领域都取得了非常成功的应用。然而，大量的数据使得模型的训练变得复杂，使用多台设备分布式训练成了必备的选择。

02

[源码解析] 深度学习分布式训练框架 horovod (12) --- 弹性训练总体架构

Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架，在业界得到了广泛应用。

02

DeepMind 推出分布式训练框架 IMPALA，开启智能体训练新时代

AI 研习社按，日前，DeepMind 推出一种全新的分布式智能体训练框架 IMPALA，该框架具有高度可扩展性，将学习和执行过程分开，使用了一种名为 V-trace 的离策略（off-policy）修正算法，具有显著的加速性能，极高的效率。具体如何呢，AI 研习社将其原文编译整理如下：深度强化学习（DeepRL）在一系列任务中取得很显著的成果，比如机器人的连续控制问题、玩围棋和 Atari 等游戏。目前为止，我们看到的这些成果仅限于单一任务，每个任务都要单独对智能体进行调参和训练。在我们最近的工作

06

关于深度学习框架的一些见解

大家好，我是kaiyuan，周末愉快！今天分享一篇阿里林伟大佬的文章，关于深度学习框架的独到见解，希望对你有帮助

02

业界 | 详解Horovod：Uber开源的TensorFlow分布式深度学习框架

选自Uber 作者：Alex Sergeev、Mike Del Balso 机器之心编译参与：李泽南、路雪 Horovod 是 Uber 开源的又一个深度学习工具，它的发展吸取了 Facebook「一小时训练 ImageNet 论文」与百度 Ring Allreduce 的优点，可为用户实现分布式训练提供帮助。本文将简要介绍这一框架的特性。近年来，深度学习引领了图像处理、语音识别和预测等方面的巨大进步。在 Uber，我们将深度学习应用到了公司业务中，从自动驾驶搜索路线到防御欺诈，深度学习让我们的数据科

06

TensorFlow 深度学习概述

作者: 陈迪豪，就职小米科技，深度学习工程师，TensorFlow代码提交者。 TensorFlow深度学习框架 Google不仅是大数据和云计算的领导者，在机器学习和深度学习上也有很好的实践和积累，在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比，TensorFlow在Github上Fork数和Star数都是最多的，而且在图形分类、音频处理、推荐系统和自然语言处理等场景下都有丰富的应用。最近流行的Keras框架底层默认使用Te

09

TensorFlow简单介绍

TensorFlow深度学习框架 Google不仅是大数据和云计算的领导者，在机器学习和深度学习上也有很好的实践和积累，在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比，TensorFlow在Github上Fork数和Star数都是最多的，而且在图形分类、音频处理、推荐系统和自然语言处理等场景下都有丰富的应用。最近流行的Keras框架底层默认使用TensorFlow，著名的斯坦福CS231n课程使用TensorFlow作为授课和

08

分布式TensorFlow入门教程

深度学习在各个领域实现突破的一部分原因是我们使用了更多的数据（大数据）来训练更复杂的模型（深度神经网络），并且可以利用一些高性能并行计算设备如GPU和FPGA来加速模型训练。但是有时候，模型之大或者训练数据量之多可能超出我们的想象，这个时候就需要分布式训练系统，利用分布式系统我们可以训练更加复杂的模型（单机无法装载），还可以加速我们的训练过程，这对于研究者实现模型的超参数优化是非常有意义的。2017年6月，Facebook发布了他们的论文Accurate, Large Minibatch SGD:Training ImageNet in 1 Hour，文中指出他们采用分布在32个服务器上的256块GPUs将Resnet-50模型在ImageNet数据集上的训练时间从两周缩短为1个小时。在软件层面，他们使用了很大的minibatch（8192）来训练模型，并且使学习速率正比于minibatch的大小。这意味着，采用分布式系统可以实现模型在成百个GPUs上的训练，从而大大减少训练时间，你也将有更多的机会去尝试各种各样的超参数组合。作为使用人数最多的深度学习框架，TensorFlow从version 0.8开始支持模型的分布式训练，现在的TensorFlow支持模型的多机多卡（GPUs和 CPUs）训练。在这篇文章里面，我将简单介绍分布式TensorFlow的基础知识，并通过实例来讲解如何使用分布式TensorFlow来训练模型。

03

TensorFlow在推荐系统中的分布式训练优化实践

美团内部深度定制的TensorFlow版本，基于原生TensorFlow 1.x架构与接口，从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景中，分布式扩展性提升10倍以上，单位算力性能也有显著提升，并在美团内部业务中大量使用，本文介绍了相关的优化与实践工作。

01

一文看尽TensorFlow的8个核心要点

Google不仅是大数据和云计算的领导者，在机器学习和深度学习上也有很好的实践和积累，在2015年年底开源了内部使用的深度学习框架TensorFlow。

02

TensorFlow轻度入门

导语：虽然已经发过很多篇关于Tensorflow的入门推文了，不过我觉得有的读者应该是处于门外汉的状态，何不趁此就开始自己动手走一遍呢？另外再次感谢支持小编上课的小伙伴们，在本日同篇推文附上榜单。 TensorFlow深度学习框架 Google不仅是大数据和云计算的领导者，在机器学习和深度学习上也有很好的实践和积累，在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比，TensorFlow在Github上Fork数和Star数都是

04

Tensorflow 回调快速入门

我们都熟悉深度学习模型的训练过程。随着模型变得越来越复杂，训练时间也显着增加。因此，模型通常需要花费数小时来训练。

01

【经验分享】如何使用keras进行多主机分布式训练

由于一般GPU的显存只有11G左右，（土豪误入），采用多主机分布式训练是非常有必要的；折腾了几天，按照谷歌的教程，终于搞清楚了，给大家梳理一下：

02

深度学习框架大战正在进行，谁将夺取“深度学习工业标准”的荣耀？

07

小米深度学习平台架构与实现

摘要深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。机器学习与深度学习应用

06

TensorFlow核心使用要点

正文之前，小梦先来说说什么是TensorFlow。TensorFlow是谷歌研发的第二代人工智能学习系统，可被用于语音识别或图像识别等多项机器深度学习领域。TensorFlow可运行的设备非常广泛，小到一部智能手机。大到数千台数据中心服务器，都可以运行TensorFlow。而且呢，TensorFlow是开源，这会大大降低深度学习在各个行业中的应用难度。 TensorFlow的流行让深度学习门槛变得越来越低，只要你有Python和机器学习基础，入门和使用神经网络模型变得非常简单。TensorFlow支持

07

使用TensorFlow训练WDL模型性能问题定位与调优

总第237篇 2018年第29篇简介 TensorFlow是Google研发的第二代人工智能学习系统，能够处理多种深度学习算法模型，以功能强大和高可扩展性而著称。TensorFlow完全开源，所以很多公司都在使用，但是美团点评在使用分布式TensorFlow训练WDL模型时，发现训练速度很慢，难以满足业务需求。经过对TensorFlow框架和Hadoop的分析定位，发现在数据输入、集群网络和计算内存分配等层面出现性能瓶颈。主要原因包括TensorFlow数据输入接口效率低、PS/Worker算子分

【问答集锦】TensorFlow带你进入深度学习的世界

自TensorFlow于2015年底正式开源，距今已有一年多，不久前，TensorFlow正式版也发布了。这期间TensorFlow不断给人以惊喜，推出了分布式版本，服务框架TensorFlowServing，可视化工具TensorFlow，上层封装TF.Learn，其他语言（Go、Java、Rust、Haskell）的绑定、Windows的支持、JIT编译器XLA、动态计算图框架Fold，以及数不胜数的经典模型在TensorFlow上的实现（InceptionNet、SyntaxNet等）。在这一年多时间，TensorFlow已从初入深度学习框架大战的新星，成为了几近垄断的行业事实标准。

02

TensorFlow在工程项目中的应用视频+文字转录（下）

本周四，雷锋网 AI 研习社邀请了跨国 IT 巨头 Thoughtworks 的资深数据架构师白发川，主讲线上公开课，为大家讲解 TensorFlow 在工程项目中的应用。讲师白发川：自我介绍一下，我是 Thoughtworks 白发川，之前一直从事大数据，后来我们开始做人工智能方向的一些尝试和工作。我们致力于将人工智能、机器学习、大数据结合在一块。在研究了了很多相关的机器学习框架之后，我们也做了自己的深度学习框架——deeplearning.scala。它由 scala 编写，目前是开源的，大家可

05

王霸之路：从0.1到2.0，一文看尽TensorFlow“奋斗史”

2015年11月，Google正式发布了Tensorflow的白皮书并开源TensorFlow 0.1 版本。

00

王霸之路：从0.1到2.0，一文看尽TensorFlow“奋斗史”

2015年11月，Google正式发布了Tensorflow的白皮书并开源TensorFlow 0.1 版本。

00

云原生的弹性 AI 训练系列之一：基于 AllReduce 的弹性分布式训练实践

高策，腾讯高级工程师，Kubeflow 社区训练和自动机器学习工作组 Tech Lead，负责腾讯云 TKE 在 AI 场景的研发和支持工作。张望，腾讯高级工程师，从事 GPU 虚拟化和分布式训练加速，负责腾讯云 TKE 在 AI 场景的研发和支持工作。引言随着模型规模和数据量的不断增大，分布式训练已经成为了工业界主流的 AI 模型训练方式。基于 Kubernetes 的 Kubeflow 项目，能够很好地承载分布式训练的工作负载，业已成为了云原生 AI 领域的事实标准，在诸多企业内广泛落地。尽管

01

[翻译] 使用 TensorFlow 进行分布式训练

https://tensorflow.google.cn/guide/distributed_training（此文的信息是2.3版本之前）。

02

原荐 TensorFlow on Kube

Author: xidianwangtao@gmail.com 玩容器的老司机都知道Kubernetes这两年非常火，截止目前在github上31K+ stars, 然而相比于TensorFlow，也就只能说是一般般了。TensorFlow才两年多，在github上已经有86K+ stars, 这是个什么概念呢？要知道，linux kernel这么多年才积累54K+ stars，当然，它们各自都是所在领域的霸主，这种对比只当闲谈。这两年，Kubernetes在各个企业中的DevOps、微服务方向取得

08

OneFlow | 新深度学习框架后浪（附源代码）

随着深度学习的发展，用户越来越依赖 GPU 或者其他加速器进行大规模运算。人工智能（Artificial Intelligence）需要更优秀的软件来释放硬件的能量已成业界共识。一方面，各种框架需要进一步降低编写深度学习分布式训练程序的门槛；另一方面，用户期待系统可以支持不同的深度学习网络模型，并实现线性加速。各知名深度学习框架正在朝这方面努力，但用户在使用这些框架时仍会遇到横向扩展性的难题，或者是投入很多计算资源但没有看到效率收益，或者是问题规模超过 GPU 显存限制而无法求解。

04

重磅！字节跳动开源高性能分布式训练框架BytePS：兼容TensorFlow、PyTorch等

AI 前线导读：近日，字节跳动人工智能实验室宣布开源一款高性能分布式深度学习训练框架 BytePS，在性能上颠覆了过去几年 allreduce 流派一直占据上风的局面，超出目前其他所有分布式训练框架一倍以上的性能，且同时能够支持 Tensorflow、PyTorch、MXNet 等开源库。

03

训练 GPT-3，为什么原有的深度学习框架吃不消？

本文梳理了深度学习框架在支持大规模预训练模型时面临的技术挑战，以及当前各类框架的基本解决思路，帮助算法工程师对业界各类框架的分布式训练能力有更清晰的认知。作者 | 一流科技CEO袁进辉头图 | 下载于ICphoto 近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同领域中，一个共同的特点就是模型规模越来越大，比如GPT-3模型的参数量达到1750亿，即便拥有1024张80GB A100，那么完整训练GPT-3的时长都需要1个月。大规模预训练模型及其训

01

谷歌、亚马逊和百度的深度学习野心：TensorFlow、MXNet、PaddlePaddle 三大框架对比

【新智元导读】本文作者陈汝丹从定位、框架使用、分布式构成三个方面比较了 TensorFlow、MXNet、PaddlePaddle三个常用开源框架。本文转载自《TensorFlow、MXNet、PaddlePaddle 对比 | 我爱计算机》，特此感谢。从深度学习开始流行，到深度学习框架的迭代，到各类实际应用的出现，不过短短几年时间。TensorFlow刚出的那段时间，简单对比过TensorFlow、MXNet、caffe三个框架，有些看法可能也不够准确，到了今天，TensorFlow、MXNet作为国

06

分布式TensorFlow入坑指南：从实例到代码带你玩转多机器深度学习

本文介绍了分布式TensorFlow的基本概念、架构以及实践案例，重点讲解了多任务集群的构建、分布式训练和推理，以及如何在不同的场景下使用分布式TensorFlow。

07

一万亿模型要来了？谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

正如吴恩达所言，当代机器学习算法的成功很大程度上是由于模型和数据集大小的增加，在大规模数据下进行分布式训练也逐渐变得普遍，而如何在大规模数据、大模型的情况下进行计算，还是一个挑战。

03

分布式TensorFlow入坑指南：从实例到代码带你玩转多机器深度学习

AI UNION 人工智能产业技术创新战略联盟这里是人工智能联盟，汇聚了最新的AI新闻资讯，还有最前沿的国内外AI开源技术，最具价值的AI创新企业，最具权威的行业导师，和最具实力的创投机构！如果你身处AI圈，那么在这里你不但能找到你最需要的，还能发现你意想不到的。通过多 GPU 并行的方式可以有很好的加速效果，然而一台机器上所支持的 GPU 是有限的，因此本文介绍了分布式 TensorFlow。分布式 TensorFlow 允许我们在多台机器上运行一个模型，所以训练速度或加速效果能显著地提升。本文简要概

07

前沿 | DeepMind提出新型架构IMPALA：帮助实现单智能体的多任务强化学习

选自DeepMind 作者：Hubert Soyer、Drew Purves、Lasse Espeholt 机器之心编译参与：路雪、李泽南深度强化学习（DeepRL）在很多任务中取得了成功，从机器人的连续控制问题到围棋、Atari 等游戏。不过这些领域中的进步还限制在单个任务，即在单个任务中对智能体进行调整和训练。DeepMind 最近提出的 IMPALA 开始尝试利用单智能体同时处理多个任务，其架构性能超越此前方法数倍，具有强大的可扩展性，同时也展示了积极的迁移性质。与新架构同时提出的还有任务集合 D

08

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。

02

TensorFlow必知基础知识

TensorFlow概要 Google第一代分布式机器学习框架DistBelief１，在内部大规模使用后并没有选择开源。而后第二代分布式机器学习系统TensorFlow２终于选择于2015年11月在GitHub上开源，且在2016年4月补充了分布式版本，并于2017年1月发布了1.0版本的预览，API接口趋于稳定。目前TensorFlow仍处于快速开发迭代中，有大量新功能及性能优化在持续研发。TensorFlow最早由Google Brain的研究员和工程师开发，设计初衷是加速机器学习的研究，并快速地

06

学习笔记 TF061 : 分布式 TensorFlow，分布式原理、最佳实践

文章主要介绍了如何利用深度学习对图像进行特征提取和分类。首先介绍了传统特征提取方法和深度学习特征提取方法的区别，然后详细介绍了卷积神经网络（CNN）的组成和原理，以及如何使用CNN进行图像分类。最后，介绍了一种基于CNN的图像分类系统，该系统包括图像预处理、特征提取、模型训练和模型预测等模块。整个系统采用模块化设计，方便进行扩展和定制。

02

译文 | 与TensorFlow的第一次接触第六章：并发

第一版TensorFlow第一版发布于2015年11月，它可以运行在多台服务器的GPU上，同时并在其上面进行训练。2016年2月，更新版中增加了分布式与并发处理。在本章简短的小节中，我会介绍如何使用GPU。对想深入理解这些设备是如何工作的读者，最后章节中列出了一些参考引用，本书不会讨论分布式版本中的细节，对分布式细节感兴趣的读者，最后章节中同样列出了一些参考引用。 GPU的执行环境如果需要TensorFlow支持GPU，需要安装CudaToolkit 7.0 and CUDNN 6.5 V2。为安装这些

07

TensorFlow、MXNet、PaddlePaddle三个开源库对比

本文从定位、框架使用、分布式构成三个方面比较了TensorFlow、MXNet、PaddlePaddle三个框架。

00

Pytorch 与 Tensorflow：深度学习的主要区别（1）

目前，Python 深度学习领域已经涌现出多个由科技界巨头如 Google、Facebook 和 Uber 等公司公开发布的框架，这些框架旨在帮助开发者构建先进的计算架构。对于刚接触这一领域的你来说，深度学习是计算机科学中的一个分支，它通过模仿人脑结构的人工神经网络，赋予计算机以类似人类的智能，使其能够解决现实世界的问题。

02

实战Google深度学习框架：TensorFlow计算加速

作者：才云科技Caicloud，郑泽宇，顾思宇要将深度学习应用到实际问题中，一个非常大的问题在于训练深度学习模型需要的计算量太大。比如Inception-v3模型在单机上训练到78%的正确率需要将近半年的时间，这样的训练速度是完全无法应用到实际生产中的。为了加速训练过程，本章将介绍如何通过TensorFlow利用GPU或/和分布式计算进行模型训练。本文节选自《TensorFlow：实战Google深度学习框架》第十章。本文将介绍如何在TensorFlow中使用单个GPU进行计算加速，也将介绍生成T

07

DeepMind推出分布式深度强化学习架构IMPALA，让一个Agent学会多种技能

维金编译自 DeepMind Blog 量子位出品 | 公众号 QbitAI 目前，深度增强学习（DeepRL）技术在多种任务中都大获成功，无论是机器人的持续控制问题，还是掌握围棋和雅达利的电子游戏。不过，这些方面的进展仅限于孤立任务。完成每一项任务都要单独调试、训练agent。在最近的工作中，我们研究了如何训练单一agent去执行多种任务。今天，我们发布了DMLab-30。这是一组新任务，包含了在统一视觉环境、通用动作空间（action space）中的多种类型挑战。训练agent去胜任多种任务意

07

大模型与AI底层技术揭秘 (7) 卡车搬运的数据

在开篇之初，我们提到了最简单的AI算法：线性回归 (Linear Regression)。让我们重温一下一元线性回归算法的公式：

02

微博深度学习平台架构和实践

作者 | 黄波，何沧平责编 | 何永灿随着人工神经网络算法的成熟、GPU计算能力的提升，深度学习在众多领域都取得了重大突破。本文介绍了微博引入深度学习和搭建深度学习平台的经验，特别是机器学习工作流、控制中心、深度学习模型训练集群、模型在线预测服务等核心部分的设计、架构经验。微博深度学习平台极大地提升了深度学习开发效率和业务迭代速度，提高了深度学习模型效果和业务效果。深度学习平台介绍人工智能和深度学习人工智能为机器赋予人的智能。随着计算机计算能力越来越强，在重复性劳动和数学计算方面很快超过了

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭