开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

tensorflow内存消耗持续增加

TensorFlow是一个开源的机器学习框架，用于构建和训练各种机器学习模型。在使用TensorFlow进行模型训练时，内存消耗持续增加可能是由于以下几个原因：

数据集大小：如果训练数据集非常大，那么在每个训练步骤中加载和处理数据可能会导致内存消耗增加。解决这个问题的一种方法是使用TensorFlow的数据集API，它可以帮助你有效地处理大型数据集。
模型复杂度：如果你的模型非常复杂，包含大量的参数和层级，那么在训练过程中会占用更多的内存。可以考虑减少模型的复杂度，或者使用分布式训练来减轻内存压力。
内存泄漏：有时候，内存消耗持续增加可能是由于代码中存在内存泄漏导致的。检查代码中是否有未释放的资源或者循环引用的情况，及时释放不再使用的变量和对象。

为了解决内存消耗持续增加的问题，可以采取以下措施：

批量训练：使用小批量训练而不是一次性加载整个数据集，这样可以减少内存消耗。
内存优化：使用TensorFlow提供的内存优化技术，如使用tf.data.Dataset API来处理大型数据集，使用tf.function来优化计算图等。
分布式训练：如果内存消耗仍然很高，可以考虑使用分布式训练来将计算任务分散到多台机器上，从而减轻每台机器的内存压力。
内存监控：使用TensorFlow的内存监控工具来分析内存使用情况，找出内存消耗增加的原因，并进行相应的优化。

腾讯云提供了一系列与TensorFlow相关的产品和服务，包括云服务器、GPU实例、弹性容器实例、容器服务、AI推理服务等。你可以根据具体的需求选择适合的产品进行使用。更多关于腾讯云的产品和服务信息，你可以访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

PyTorch、TensorFlow最新版本对比，2021年了你选谁？

自深度学习重新获得公认以来，许多机器学习框架层出不穷，争相成为研究人员以及行业从业人员的新宠。从早期的学术成果 Caffe、Theano，到获得庞大工业支持的 PyTorch、TensorFlow，许多研究者面对大量的学习框架不知该如何选择？

06

剪枝后这个深度神经网络速度提高了 3 倍，体积缩小了 4 倍

目前，深度学习模型需要大量的计算、内存和功耗，这成为我们在实时推理或在计算资源有限的边缘设备以及浏览器上运行模型的瓶颈。能量效率是当前深度学习模型的主要关注点。提升这种效率的方法之一是着眼于推理效率。

03

TensorFlow Lite在Kika Keyboard中的应用案例分享

『基于 AI 技术变革沟通，让世界沟通更简单』一直是 Kika keyboard 最重要的使命。从2016年开始，Kika 技术团队一直致力于 AI 技术在移动端落地，尤其是在 keyboard 输入法引擎做了很多算法与工程上的探索工作。2017 年 5 月，Kika 技术团队基于 TensorFlow Mobile 研发了 Kika AI Engine，将其应用于 Kika 的全系输入法产品中。2017 年 11 月，Google 发布 TensorFlow Lite (TF Lite) 后，Kika 技术团队迅速进行了跟进，并于 2018 年 1 月成功地开发了基于 TF Lite 全新一代的 Kika AI Engine，同时进行了线上产品的更新。

04

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

2018 年 12 月，英伟达在加拿大蒙特利尔 NeurIPS 大会上发布最新款产品 Titan RTX，作为 2017 年 Titan V 的「继承者」，Titan RTX 价格更低，显存更大，性能更强，且使用图灵架构，具备强大的光线追踪能力。因此，Titan RTX 的发布对 AI 社区而言，是不是做深度学习的一个不错选择呢？

05

PyTorch 1.6、TensorFlow 2.3、Pandas 1.1同日发布！都有哪些新特性？

7月29日，PyTorch 1.6、TenorFlow 2.3、Pandas 1.1恰巧同时发布。这三个库都是定期滚动更新，大约每个季度更新一次小版本。

04

【解读谷歌TFX】基于TensorFlow可大规模扩展的机器学习平台

【新智元导读】作者详细分析了Google通用机器学习平台和其实现过程。通过将上述组件集成到一个平台中，能够对组件进行标准化，简化平台配置，并将生产时间从数月缩短到数周，同时提供平台稳定性，最大程度地减少服务中断。 KDD2017上，谷歌发布了基于TensorFlow的可大规模扩展的产品级机器学习平台TFX。（论文地址：http://www.kdd.org/kdd2017/papers/view/tfx-a-tensorflow-based-production-scale-machine-learnin

04

开发 | 谷歌开源计算机视觉模型MobileNets：专为不同级别移动设备优化

AI 科技评论消息，谷歌刚刚对外发布了开源计算机视觉模型MobileNets。MobileNets是一系列为移动和嵌入式设备设计的计算机视觉模型，它可以利用设备有限的资源高效运行，并提供尽可能高的准确

09

Tensorboard 显示计算图节点信息

[1]Tensorflow实战Google深度学习框架: https://github.com/caicloud/tensorflow-tutorial/tree/master/Deep_Learning_with_TensorFlow/1.4.0

04

OpenAI 开源最新工具包，模型增大 10 倍只需额外增加 20% 计算时间

AI 研习社消息，近日，OpenAI 在 GitHub 上开源最新工具包 gradient-checkpointing，该工具包通过设置梯度检查点（gradient-checkpointing）来节省内存资源。据悉，对于普通的前馈模型，可以在计算时间只增加 20% 的情况下，在 GPU 上训练比之前大十多倍的模型。雷锋网 AI 研习社将该开源信息编译整理如下：通过梯度检查点（gradient-checkpointing）来节省内存资源训练非常深的神经网络需要大量内存，利用 Tim Salimans

07

Google正式发布TensorFlow Lite预览版，针对移动/嵌入设备的轻量级解决方案

AI科技评论消息，日前，谷歌正式发布 TensorFlow Lite 开发者预览版，这是针对移动和嵌入式设备的轻量级解决方案。TensorFlow Lite 是一种全新的设计，具有三个重要特征——轻量级（Lightweight）、跨平台（Cross-platform）、快速（Fast）。下面是来自 Google Developers Blog 的详细信息，AI科技评论编译如下。谷歌于今天正式发布 TensorFlow Lite 开发者预览版，这是针对移动和嵌入式设备的轻量级解决方案。TensorFlow

07

Tensorboard 详解（上篇）

编辑 | 磐石出品 | 磐创AI技术团队【磐创AI导读】：本文详细介绍了Tensorboard的各个模块并有代码演练。欢迎大家点击上方蓝字关注我们的公众号：磐创AI。 1. Tensorboard简介对大部分人而言，深度神经网络就像一个黑盒子，其内部的组织、结构、以及其训练过程很难理清楚，这给深度神经网络原理的理解和工程化带来了很大的挑战。为了解决这个问题，tensorboard应运而生。Tensorboard是tensorflow内置的一个可视化工具，它通过将tensorflow程序输出的日志文件

03

前端工程师掌握这18招，就能在浏览器里玩转深度学习

【导读】TensorFlow.js 的发布可以说是 JS 社区开发者的福音！但是在浏览器中训练一些模型还是会存在一些问题与不同，如何可以让训练效果更好？本文的作者，是一位前端工程师，经过自己不断的经验积累，为大家总结了 18 个 Tips，希望可以帮助大家训练出更好的模型。

01

大数据||使用AI算法进行滚动轴承故障精准预测

故障诊断和预测的关键是实现从故障征兆到故障识别的映射。传统的方式是基于推理的专家系统，但专家系统用于故障诊断，存在知识获取困难，组合爆炸和匹配冲突等问题，学习应用达不到预期效果。

04

TensorFlow与主流深度学习框架对比

TensorFlow是相对高阶的机器学习库，用户可以方便地用它设计神经网络结构，而不必为了追求高效率的实现亲自写C++或CUDA代码。它和Theano一样都支持自动求导，用户不需要再通过反向传播求解梯度。其核心代码和Caffe一样是用C++编写的，使用C++简化了线上部署的复杂度，并让手机这种内存和CPU资源都紧张的设备可以运行复杂模型（Python则会比较消耗资源，并且执行效率不高）。除了核心代码的C++接口，TensorFlow还有官方的Python、Go和Java接口，是通过SWIG（Simplified Wrapper and Interface Generator）实现的，这样用户就可以在一个硬件配置较好的机器中用Python进行实验，并在资源比较紧张的嵌入式环境或需要低延迟的环境中用C++部署模型。SWIG支持给C/C++代码提供各种语言的接口，因此其他脚本语言的接口未来也可以通过SWIG方便地添加。不过使用Python时有一个影响效率的问题是，每一个mini-batch要从Python中feed到网络中，这个过程在mini-batch的数据量很小或者运算时间很短时，可能会带来影响比较大的延迟。现在TensorFlow还有非官方的Julia、Node.js、R的接口支持。

02

ChatGPT专题|做出ChatGPT的OpenAI，是如何打破英伟达在机器学习领域的垄断地位的？

在机器学习领域，无论是硬件还是软件，英伟达无疑均拥有巨大优势，后者用 CUDA 建立起了一道软件的护城河。可惜的是，这家公司缺乏远见，未能利用其在机器学习硬软件方面的巨大优势，让自己成为机器学习默认的编译器。而它对可用性与易用性的忽视，让 OpenAI 与 Meta 得以趁虚而入，其主导地位正在被打破。

02

【干货】TensorFlow 高阶技巧：常见陷阱、调试和性能优化

【新智元导读】文本将介绍一些 TensorFlow 的操作技巧，旨在提高你的模型性能和训练水平。文章将从预处理和输入管道开始，覆盖图、调试和性能优化的问题。预处理和输入管道保持预处理干净简洁训练一个相对简单的模型也需要很长时间？检查一下你的预处理！任何麻烦的预处理（比如将数据转换成神经网络的输入），都会显著降低你的推理速度。对于我个人来说，我会创建所谓的“距离地图”（distant map），也就是用于“深层交互对象选择”的灰度图像作为附加输入，使用自定义python函数。我的训练速度最高是每秒大约处

利用BERT训练推特上COVID-19数据

大数据文摘授权转载自数据派THU作者：陈之炎一直以来，Twitter是新闻的重要来源，在COVID-19大流行期间，公众可以在推特上表达自己的焦虑情绪。然而，要对Twitter上海量的COVID-19信息手动进行分类、过滤和总结，几乎是不可能做到的。这个艰巨而富有挑战性的任务便落到了BERT 头上，作为自然语言处理（NLP）领域机器学习工具的不二选择，利用BERT模型来对Twitter上海量的COVID-19信息自动进行分类、过滤和总结，提高对Twitter上相关COVID-19内容的理解，以及针对这

01

前端工程师深度学习，就能在浏览器里玩转深度学习

TensorFlow.js 的发布可以说是 JS 社区开发者的福音！但是在浏览器中训练一些模型还是会存在一些问题与不同，如何可以让训练效果更好？本文为大家总结了 18 个 Tips，希望可以帮助大家训练出更好的模型。

03

【深度】TensorFlow or TensorSlow，谷歌基准测试为何不给力？（附Google内部员工测试代码下载）

11月9日Google发布了第二代深度学习引擎TensorFlow，引起业内广泛关注。发布后业内人士热议的一个话题是：这个引擎能否成为Google所说的平台级产品，它的基准测试究竟怎么样？ Soumith 在 Github 做基准测试，在 Google TensorFlow 发布后，Soumith 很快发布了关于 TensorFlow 的基准测试报告。【Soumith】GoogleTensorFlow的benchmark列在了这里。我在Imagenet Winners上运行了benchmark测试程序。

04

TensorFlow可以做什么？让Google Brain首席工程师告诉你

编辑 | 明明 1月19日，在极客公园创新者大会IF2018的现场，Google Brain首席工程师陈智峰发表题为：《找答案从定义问题开始 ——TensorFlow 可以用来做什么？》的演讲，分享了Google Brain最近一年到两年时间里面的研究方向，以及在TensorFlow方面的一些工作、成果、进展。以下为演讲实录：深度学习深度学习这几年非常流行，在Google的搜索流量里面，深度学习在过去的7-8年时间里，增长了大概100倍，从这个侧面也反映出学界和工业界对这个技术的关注程度，是在迅

05

TensorFlow必知基础知识

TensorFlow概要 Google第一代分布式机器学习框架DistBelief１，在内部大规模使用后并没有选择开源。而后第二代分布式机器学习系统TensorFlow２终于选择于2015年11月在GitHub上开源，且在2016年4月补充了分布式版本，并于2017年1月发布了1.0版本的预览，API接口趋于稳定。目前TensorFlow仍处于快速开发迭代中，有大量新功能及性能优化在持续研发。TensorFlow最早由Google Brain的研究员和工程师开发，设计初衷是加速机器学习的研究，并快速地

06

大模型有什么用，从技术上看

目前为止，大模型主要是以NLP为主，因为NLP抛弃了RNN序列依赖的问题，采用了Attention is All you need的Transformer结构，使得NLP能够演变出更多大模型。图像领域也不甘示弱，CNN大模型也开始陆续涌现。

04

3.2 详解优化器的选择

版权声明：本文为博主原创文章，未经博主允许不得转载。python版本为python3，实例都是经过实际验证。 https://blog.csdn.net/jinxiaonian11/article/details/83141916

02

谷歌新语言模型Switch Transformer

在过去的三年中，基于transformer的语言模型(LMs)在自然语言处理(NLP)领域一直占据着主导地位。Transformer 通常是在大量非结构化文本上预先训练的巨大网络，它能够捕捉有用的语言属性。然后，我么可以对预先训练的模型进行微调，以适应各种各样的最终任务，如回答问题或机器翻译，通过微调即使是在少量的标记数据上也可以训练出可用的模型。Switch Transformer发布前，谷歌的T5模型一直是多个NLP基准上的记录保持者，但是最近被它自己的Switch Transformer超越。

02

干货 | 谷歌TensorFlow Extended 如何帮助开发者快速落地项目

顾仁民，谷歌资深工程师，目前负责谷歌机器学习技术在国内的技术推广与企业合作。曾任谷歌展示广告系统研发团队主管，支撑国外若干大型网站的广告系统营收。

02

资源 | 十倍模型计算时间仅增20%：OpenAI开源梯度替换插件

选自GitHub 机器之心编译参与：蒋思源、李泽南训练一个非常深度的神经网络需要大量内存。通过由 OpenAI 研究员 Tim Salimans 和 Yaroslav Bulatov 联合开发的工具包，你可以权衡计算力和内存的使用，从而使你的模型更合理地占用内存。对于前馈模型，我们能够借助该工具把大 10 多倍的模型放在我们的 GPU 上，而计算时间只增加 20%。项目链接：https://github.com/openai/gradient-checkpointing 通过梯度检查节约内存深度神

09

基于TensorFlow.js在浏览器上构建深度学习应用

在前面的章节，我们讨论了各种JavaScript概念和运行在浏览器上的各种深度学习框架。在本章中，我们将所有的知识付诸于实践，证明该技术的潜力。

04

深度揭秘谷歌TPU2机器学习集群：新一代的「谷歌云TensorFlow处理单元」

选自The Next Platform 作者：Paul Teich 机器之心编译参与：Nurhachu Null、黄小天在最近的 2017 Google I/O 大会上，谷歌发布了 TPU2(第二代 TensorFlow 处理单元)；近日，TIRIAS Research 的一位顶尖技术专家和首席分析师 Paul Teich 在 Nextplatform 发表文章，对 TPU2 机器学习集群做了深度揭秘，提出了一些不同观点，比如他认为 TPU2 是内部专属产品，Google 不太可能出售基于 TPU 的

09

为什么要用3x3卷积？偶数卷积核其实表现更强 | NeurIPS 2019

当前紧凑的卷积神经网络主要通道深度可分离卷积，扩张通道和复杂的拓扑结构来提高效率，但这也反过来加重了训练过程。此外，在这些模型中3*3卷积核占主要地位，而偶数大小的卷积核(2*2,4*4)很少被采用。

03

AI繁荣下的隐忧——Google Tensorflow安全风险剖析

我们身处一个巨变的时代，各种新技术层出不穷，人工智能作为一个诞生于上世纪50年代的概念，近两年出现井喷式发展，得到各行各业的追捧，这背后来自于各种力量的推动，诸如深度学习算法的突破、硬件计算能力的提升、不断增长的大数据分析需求等。从2017年的迅猛发展，到2018年的持续火爆，国内外各个巨头公司如腾讯、阿里、百度、Google、微软、Facebook等均开始在人工智能领域投下重兵，毫无疑问，这一技术未来将会深度参与我们的生活并让我们的生活产生巨大改变：人工智能时代来了！

02

AI繁荣下的隐忧——Google Tensorflow安全风险剖析

我们身处一个巨变的时代，各种新技术层出不穷，人工智能作为一个诞生于上世纪50年代的概念，近两年出现井喷式发展，得到各行各业的追捧，这背后来自于各种力量的推动，诸如深度学习算法的突破、硬件计算能力的提升、不断增长的大数据分析需求等。从2017年的迅猛发展，到2018年的持续火爆，国内外各个巨头公司如腾讯、阿里、百度、Google、微软、Facebook等均开始在人工智能领域投下重兵，毫无疑问，这一技术未来将会深度参与我们的生活并让我们的生活产生巨大改变：人工智能时代来了！

07

腾讯推荐引擎组员工：谈谈推荐系统架构

架构图图1 总体架构图1大虚线内是线上服务，请求顺序用数字标识，不带箭头的连线表示通信是双向的，即请求与响应，它周围的各模块分别是：elk日志收集系统，监控系统，A/B实验，处理离线数据的hdfa+spark/tensorflow，处理实时数据的kafka+storm/flink和物品管理。在线服务内部架构在线服务的内部如大虚线框内所示，这可能和你遇到的不同，甚至和你想像的也差异很大，但不必奇怪，一来架构因人而异，二来业务规模和团队结构的不同导致服务架构也不一样。当规模较小时，整个虚线框完

03

腾讯太极机器学习平台|大规模训练加速框架Light 在广告粗排场景的落地

背景介绍太极机器学习平台由腾讯云机智平台和tesla平台协同共建而成，太极联合团队在深度学习训练加速上有深厚的技术累积，曾两次刷新了 ImageNet 训练速度的世界记录，并发表相应论文。为使团队沉淀的训练加速技术赋能鹅厂更多业务场景并创造更大价值，Light 训练产品应运而生。Light 是云帆Oteam基于当前社区主流深度学习框架开发的一套多机多卡深度学习训练加速框架，用户只需要做几行代码即可接入并获得高性能加速能力。从去年开始，太极团队针对广告训练场景进行了专项的性能优化，并针对业务模型迭

03

FATE / KubeFATE v1.8重磅发布：增强生产可用性，丰富并完善多项功能

我们的团队一直在参与开源项目的贡献和社区运营。除了之前的 Harbor 开源社区外，我们近期在深度参与联邦学习领域 FATE 开源项目，感兴趣的朋友会议来交流和合作。本篇转发 FATE 开发专委会的文章。

02

CVPR 2020 | RandLA-Net:大场景三维点云语义分割新框架（已开源）

本文要介绍的是 CVPR 2020上被录用的文章《RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds》

05

和TensorFlow一样，英伟达CUDA的垄断格局将被打破？

选自semianalysis.com 作者：Dylan Patel 机器之心编译机器之心编辑部 CUDA 闭源库将和 TensorFlow 一样逐渐式微。十年来，机器学习软件开发的格局发生了重大变化。许多框架如雨后春笋般涌现，但大多数都严重依赖于英伟达的 CUDA，并在英伟达的 GPU 上才能获得最佳的性能。然而，随着 PyTorch 2.0 和 OpenAI Triton 的到来，英伟达在这一领域的主导地位正在被打破。谷歌早期在机器学习模型架构、训练、模型优化方面都具有很大优势，但现在却难以充分发挥

01

TensorFlow2.0（10）：加载自定义图片数据集到Dataset

前面的推文中我们说过，在加载数据和预处理数据时使用tf.data.Dataset对象将极大将我们从建模前的数据清理工作中释放出来，那么，怎么将自定义的数据集加载为DataSet对象呢？这对很多新手来说都是一个难题，因为绝大多数案例教学都是以mnist数据集作为例子讲述如何将数据加载到Dataset中，而英文资料对这方面的介绍隐藏得有点深。本文就来捋一捋如何加载自定义的图片数据集实现图片分类，后续将继续介绍如何加载自定义的text、mongodb等数据。

02

发布 | OpenCV 4.1.0来啦！

对Core模块大量像素级别的操作函数与Imgproc中大量图像处理函数做了整体优化，速度又有提升

03

原创 | 利用BERT 训练推特上COVID-19数据

模型基于BERT-LARGE （英文，不区分大小写，全字屏蔽）模型。BERT-LARGE主要用于训练英文维基百科（3.5B字）和免费书籍语料库（0.8B字）等大型的原始文本数据集，虽然这些数据集中包含了海量的数据，但是它却没有包含特殊子领域的相关信息，在一些特定的专业领域，已经有了利用transformer模型训练特殊专业领域的预料库的相关案例，如BIOBERT和SCIBERT，这些模型均采用完全相同的无监督训练技术MLM / NSP / SOP，需要消耗巨大的硬件资源。更为常见和通用的方法是首先利用通用的模型训练出权重，在完成专业领域的预训练之后，再将专业领域的预训练结果代替通用领域的预训练结果，输入到下游任务中进行训练。

03

开源圆桌 Q&A 集锦

段维伟-使用 Flutter 2.0 开发多平台 VOIP/WebRTC 客户端

03

【机器学习】彻底搞懂CNN

作者：水奈樾人工智能爱好者博客专栏：http://www.cnblogs.com/rucwxb/ 上世纪科学家们发现了几个视觉神经特点，视神经具有局部感受野，一整张图的识别由多个局部识别点构成；不同神经元对不同形状有识别能力，且视神经具有叠加能力，高层复杂的图案可以由低层简单线条组成。之后人们发现经过conclusional的操作，可以很好反映视神经处理计算的过程，典型的是1998年LeCun发明的LeNet-5，可以极大地提升识别效果。本文主要就convolutional layer、pooling

技术干货 | FreeFlow: 基于软件的虚拟RDMA容器云网络

https://blog.csdn.net/weixin_33725722/article/details/89131555

01

深度学习TensorFlow与PyTorch代码解析实战探索

TensorFlow是由Google开发的开源框架，拥有庞大的社区支持和丰富的文档资源。它的主要特点包括：

02

PyTorch官方教程大更新：增加标签索引，更新主体分类

自从 2012年以来许多机器学习框架都争先恐后地要成为研究人员和行业从业者的新宠。从早期的学术性的 Caffe（卷积神经网络框架）和 Theano（一个基于 Python 的深度学习库），到业界支持的大规模 PyTorch 和 TensorFlow，深度学习框架层出不穷。

01

腾讯开源推理组件TNN，激发AI生产力

深度学习在经历了几年的大发展后，应用的需求和场景不断拓展和丰富。深度学习对算力了巨大需求一直制约着更广泛的落地。在移动端，这个问题一直极为突出：手机处理器性能弱、算力无法多机拓展、运算耗时长直接导致发热和高功耗，这些问题都与app的用户体验关系巨大。优图实验室作为公司最早将深度学习在移动端推广的实验室之一，在这一方面有着持续的积累。2017年，优图实验室开源了ncnn推断框架，是首个专注于移动端的开源推断框架，在业界收到了广泛的推崇，至今在GitHub上获得了8.9kstar和2.3k fork。随

06

腾讯太极机器学习平台|Light在广告粗排中的数据下载与解析优化

概述广告粗排训练是一个小模型、低延时的业务场景。在此场景下，我们基于于云帆Oteam中的Light通用训练加速框架，根据广告粗排训练特性定制化地构建了GPU上同步分布式的模式进行数据并行的训练模式，将存储在HDFS上的训练数据，读取到本地，然后输入到模型中，进行前向计算。该训练方式不存在PS，每个worker上有全量的参数。Light框架下的各个worker前向计算获得梯度后，使用LightCC进行梯度规约通信，并将获得的梯度更新到本地的参数上。我们在上述训练方式下，进行了系统瓶颈分析和性能优化。本系列

04

MLOps：构建生产机器学习系统的最佳实践

你可能已经听过很多次了，但只有一小部分机器学习模型投入生产。部署和运行机器学习模型对于大多数已经开始将ML应用于用例的行业来说都是一个挑战。在这篇文章中，我将分享一些MLOps的最佳实践和技巧，它们将允许您在生产环境中使用您的ML模型并正确地操作它。在我们开始之前，让我们讨论一下我们可能都知道的典型的ML项目生命周期。

02

TensorFlow on Kubernetes性能瓶颈定位

Author: xidianwangtao@gmail.com 当前性能问题描述增加worker数，一定范围内能带来较好的性能提升，但是继续增加worker数时，训练性能提升不明显；增加ps数，一定范围内能带来较好的性能提升，但是继续增加ps数时，训练性能提升不明显；可能原因：与ps和worker的分布情况强相关：目前的调度策略，主要根据服务器的cpu和内存使用情况进行均衡调度，尽量使得集群中每台服务器的cpu和内存使用率相当。这种情况下，ps和worker的调度存在一定程度的随机性。

07

替代Docker，登上顶刊，这款开源沙箱牛在哪里？

导语 | 通过 WebAssembly，腾讯云 Serverless 让开发者只写几行代码，就能在生产环境部署 TensorFlow 模型。Serverless 让开发者不用另起服务器，同时也比 AI SaaS 服务更易定制化，达到提高开发效率与业务灵活扩展的效果。本文由 Second State CEO Michael Yuan 在 Techo TVP 开发者峰会 ServerlessDays China 2021上的演讲《在腾讯云 Serverless 上部署AI推理函数》整理而成，向大家分享他的

04

经验 | PyTorch开发部署时5个常见错误

ML是有趣的，ML是受欢迎的，ML无处不在。大多数公司要么使用TensorFlow，要么使用PyTorch，还有些老家伙喜欢Caffe。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭