开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在单个gpu上并行训练两个tensorflow脚本？

在单个GPU上并行训练两个TensorFlow脚本，可以通过以下步骤实现：

多线程并行训练：使用Python的threading模块创建两个线程，每个线程负责运行一个TensorFlow脚本。确保每个线程都使用不同的GPU设备，可以通过设置CUDA_VISIBLE_DEVICES环境变量来指定使用的GPU设备。
TensorFlow的tf.device：在每个TensorFlow脚本中，使用tf.device函数将不同的操作分配到不同的GPU设备上。例如，将第一个脚本中的操作分配到GPU 0，将第二个脚本中的操作分配到GPU 1。
数据分割：如果两个脚本需要使用相同的数据集进行训练，可以将数据集分成两部分，分别在不同的脚本中使用。这样可以避免数据冲突和同步问题。
模型参数共享：如果两个脚本需要共享相同的模型参数，可以在一个脚本中定义模型，然后将模型参数传递给另一个脚本。这样可以避免重复定义模型和参数的开销。
同步训练：如果两个脚本需要进行同步训练，可以使用TensorFlow的分布式训练框架，如tf.distribute.Strategy。这样可以实现跨多个GPU设备的并行训练和同步更新模型参数。

总结起来，要在单个GPU上并行训练两个TensorFlow脚本，需要使用多线程并行训练、使用tf.device函数分配操作到不同的GPU设备、数据分割、模型参数共享和同步训练等技术手段。具体实现可以根据实际需求和场景进行调整和优化。

腾讯云相关产品和产品介绍链接地址：

腾讯云GPU计算服务：https://cloud.tencent.com/product/gpu
腾讯云容器服务：https://cloud.tencent.com/product/ccs
腾讯云弹性GPU：https://cloud.tencent.com/product/gpu
腾讯云AI推理：https://cloud.tencent.com/product/tci
腾讯云AI训练：https://cloud.tencent.com/product/tti

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

资源 | TensorFlow分布式计算机制解读：以数据并行为重

选自clindatsci 作者：Neil Tenenholtz 机器之心编译参与：Jane W、黄小天 Tensorflow 是一个为数值计算（最常见的是训练神经网络）设计的流行开源库。在这个框架中，计算流程通过数据流程图（data flow graph）设计，这为更改操作结构与安置提供了很大灵活性。TensorFlow 允许多个 worker 并行计算，这对必须通过处理的大量训练数据训练的神经网络是有益的。此外，如果模型足够大，这种并行化有时可能是必须的。在本文中，我们将探讨 TensorFlow 的

07

实战Google深度学习框架：TensorFlow计算加速

作者：才云科技Caicloud，郑泽宇，顾思宇要将深度学习应用到实际问题中，一个非常大的问题在于训练深度学习模型需要的计算量太大。比如Inception-v3模型在单机上训练到78%的正确率需要将近半年的时间，这样的训练速度是完全无法应用到实际生产中的。为了加速训练过程，本章将介绍如何通过TensorFlow利用GPU或/和分布式计算进行模型训练。本文节选自《TensorFlow：实战Google深度学习框架》第十章。本文将介绍如何在TensorFlow中使用单个GPU进行计算加速，也将介绍生成T

07

教程 | TensorFlow 官方解读：如何在多系统和网络拓扑中构建高性能模型

选自Tensorflow 机器之心编译参与：黄玉胜、黄小天这个文档和附带的脚本详细介绍了如何构建针对各种系统和网络拓扑的高性能可拓展模型。这个技术在本文档中用了一些低级的 Tensorflow Python 基元。在未来，这些技术将被并入高级 API。输入管道性能指南阐述了如何诊断输入管道可能存在的问题及其最佳解决方法。在使用大量输入和每秒更高的采样处理中我们发现 tf.FIFOQueue 和 tf.train.queue_runner 无法使用当前多个 GPU 生成饱和，例如在使用 AlexNet

GPU捉襟见肘还想训练大批量模型？谁说不可以

2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型（如 OpenAI 的大型生成预训练 Transformer 或最近类似的 BERT 模型）还是馈入 3000 万个元素输入的元学习神经网络（如我们在一篇 ICLR 论文《Meta-Learning a Dynamical Language Model》中提到的模型），我都只能在 GPU 上处理很少的训练样本。

03

实战Google深度学习框架：TensorFlow计算加速

要将深度学习应用到实际问题中，一个非常大的问题在于训练深度学习模型需要的计算量太大。比如Inception-v3模型在单机上训练到78%的正确率需要将近半年的时间，这样的训练速度是完全无法应用到实际生产中的。为了加速训练过程，本章将介绍如何通过TensorFlow利用GPU或/和分布式计算进行模型训练。本文节选自《TensorFlow：实战Google深度学习框架》第十章。本文将介绍如何在TensorFlow中使用单个GPU进行计算加速，也将介绍生成TensorFlow会话（tf.Session）时的一

08

[开发技巧]·TensorFlow&Keras GPU使用技巧

使用TensorFlow&Keras通过GPU进行加速训练时，有时在训练一个任务的时候需要去测试结果，或者是需要并行训练数据的时候就会显示OOM显存容量不足的错误。以下简称在训练一个任务的时候需要去测试结果，或者是需要并行训练数据为进行新的运算任务。

02

业界 | 详解Horovod：Uber开源的TensorFlow分布式深度学习框架

选自Uber 作者：Alex Sergeev、Mike Del Balso 机器之心编译参与：李泽南、路雪 Horovod 是 Uber 开源的又一个深度学习工具，它的发展吸取了 Facebook「一小时训练 ImageNet 论文」与百度 Ring Allreduce 的优点，可为用户实现分布式训练提供帮助。本文将简要介绍这一框架的特性。近年来，深度学习引领了图像处理、语音识别和预测等方面的巨大进步。在 Uber，我们将深度学习应用到了公司业务中，从自动驾驶搜索路线到防御欺诈，深度学习让我们的数据科

06

转载｜在TensorFlow和PaddleFluid中使用多块GPU卡进行训练

前四篇文章我们介绍了 PaddleFluid 和 TensorFlow 的设计原理基本使用概念，分别通过在两个平台上实现完全相同的模型完成图像分类，语言模型和序列标注三个任务，了解我们的使用经验如何在两个平台之间迁移，以此来了解非序列模型和序列模型在两个平台之上设计和使用的差异。

03

实战Google深度学习框架：TensorFlow计算加速

作者：才云科技Caicloud，郑泽宇，顾思宇要将深度学习应用到实际问题中，一个非常大的问题在于训练深度学习模型需要的计算量太大。比如Inception-v3模型在单机上训练到78%的正确率需要将近半年的时间，这样的训练速度是完全无法应用到实际生产中的。为了加速训练过程，本章将介绍如何通过TensorFlow利用GPU或/和分布式计算进行模型训练。本文节选自《TensorFlow：实战Google深度学习框架》第十章。本文将介绍如何在TensorFlow中使用单个GPU进行计算加速，也将介绍生成Ten

05

NLP界“威震天”袭来！英伟达1小时成功训练BERT，83亿参数打造史上最大语言模型

这个模型有多大？83亿个参数！比谷歌的 BERT 大24倍，比 OpenAI 的 GPT-2 大5.6倍！

02

云原生的弹性 AI 训练系列之一：基于 AllReduce 的弹性分布式训练实践

高策，腾讯高级工程师，Kubeflow 社区训练和自动机器学习工作组 Tech Lead，负责腾讯云 TKE 在 AI 场景的研发和支持工作。张望，腾讯高级工程师，从事 GPU 虚拟化和分布式训练加速，负责腾讯云 TKE 在 AI 场景的研发和支持工作。引言随着模型规模和数据量的不断增大，分布式训练已经成为了工业界主流的 AI 模型训练方式。基于 Kubernetes 的 Kubeflow 项目，能够很好地承载分布式训练的工作负载，业已成为了云原生 AI 领域的事实标准，在诸多企业内广泛落地。尽管

01

《Scikit-Learn与TensorFlow机器学习实用指南》第12章设备和服务器上的分布式 TensorFlow

在第 11 章，我们讨论了几种可以明显加速训练的技术：更好的权重初始化，批量标准化，复杂的优化器等等。但是，即使采用了所有这些技术，在具有单个 CPU 的单台机器上训练大型神经网络可能需要几天甚至几周的时间。

01

TensorFlow On Spark 开源项目分析

原文：http://sparkdata.org/?p=423&utm_source=tuicool&utm_medium=referral 作者：京东大数据技术保障团队概述自Google发布Ten

06

基准评测 TensorFlow、Caffe、CNTK、MXNet、Torch 在三类流行深度神经网络上的表现（论文）

【新智元导读】新年伊始，新智元向你推荐香港浸会大学计算机学院褚晓文团队最新论文《基准评测当前最先进的深度学习软件工具》，评测了 Caffe、CNTK、MXNet、TensorFlow、Torch 这五个最受欢迎的DL框架在 FCN、CNN、RNN 上的表现。这是伯克利RISE实验室大牛、RISC之父 David Patterson 也在关注的深度学习库评测。论文作者强调这是一个开源项目，所有配置文件和实验数据均在 http: //www.comp.hkbu.edu.hk/∼chxw/dlbench.html

08

学界丨基准测评当前最先进的 5 大深度学习开源框架

AI 科技评论按：本文转自微信公众号医AI (med-ai)，来源：arXiv.org，论文作者：Shaohuai Shi, Qiang Wang, Pengfei Xu, Xiaowen Chu，译者：吴博, Elaine, Melody 在 2016 年推出深度学习工具评测的褚晓文团队，赶在猴年最后一天，在 arXiv.org 上发布了最新的评测版本。这份评测的初版，通过国内AI自媒体的传播，在国内业界影响很大。在学术界，其反响更是非同一般。褚晓文教授在1月5日的朋友圈说David Patterso

05

Keras学习笔记（六）——如何在 GPU 上运行 Keras?以及如何在多 GPU 上运行 Keras 模型?，Keras会不会自动使用GPU？

如果你以 TensorFlow 或 CNTK 后端运行，只要检测到任何可用的 GPU，那么代码将自动在 GPU 上运行。

02

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

有了能做出惊人预测的模型之后，要做什么呢？当然是部署生产了。这只要用模型运行一批数据就成，可能需要写一个脚本让模型每夜都跑着。但是，现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据，这种情况需要将模型包装成网络服务：这样的话，任何组件都可以通过REST API询问模型。随着时间的推移，你需要用新数据重新训练模型，更新生产版本。必须处理好模型版本，平稳地过渡到新版本，碰到问题的话需要回滚，也许要并行运行多个版本做AB测试。如果产品很成功，你的服务可能每秒会有大量查询，系统必须提升负载能力。提升负载能力的方法之一，是使用TF Serving，通过自己的硬件或通过云服务，比如Google Cloud API平台。TF Serving能高效服务化模型，优雅处理模型过渡，等等。如果使用云平台，还能获得其它功能，比如强大的监督工具。

02

Tensorflow入门教程（九）——Tensorflow数据并行多GPU处理

上一篇我介绍了用Python来构建原型内核和常用可视化方法。这一篇我会说Tensorflow如何数据并行多GPU处理。

03

卷积神经网络

【重磅】Jeff Dean等提出自动化分层模型，优化CPU、GPU等异构环境，性能提升超 60%

谷歌大脑Jeff Dean等人最新提出一种分层模型，这是一种灵活的端到端方法，用于优化CPU、GPU等的自动化设备配置。该方法在多个主要神经网络模型上测试，最高实现了60.6％的性能提升。谷歌大脑Jeff Dean等人最新提出一种分层模型，用于将计算图有效地放置到硬件设备上，尤其是在混合了CPU、GPU和其他计算设备的异构环境中。设备配置（Device placement）可以被框定为学习如何在可用设备之间对图进行分区，将传统的图分区方法作为一个自然的baseline。先前的工作有Scotc

07

如何用Amazon SageMaker 做分布式 TensorFlow 训练？（千元亚马逊羊毛可薅）

TensorFlow 是广泛被用于开发大型深度神经网络 (DNN) 的开放源机器学习 (ML) 库，此类 DNN 需要分布式训练，并且在多个主机上使用多个 GPU。Amazon SageMaker 是一项托管服务，可通过主动学习、超参数优化、模型分布式训练、监控训练进展，部署培训模型作为自动扩展的 RESTful 服务，以及对并发 ML 实验进行集中式管理，从标签数据开始简化 ML 工作流。

03

使用RaySGD更快，更便宜的PyTorch

分发深度学习模型训练已经成为何时进行训练的问题，而不是如果这样做。最先进的ML模型（例如BERT）具有数亿个参数，而在一台机器上训练这些大型网络将花费数天甚至数周的时间。

02

业界 | 在个人电脑上快速训练Atari深度学习模型：Uber开源「深度神经进化」加速版

选自Uber AI 作者：Felipe Petroski Such、Kenneth O. Stanley、Jeff Clune 机器之心编译参与：路、李泽南 Uber 在去年底发表的研究中发现，通过使用遗传算法高效演化 DNN，可以训练含有超过 400 万参数的深度卷积网络在像素级别上玩 Atari 游戏；这种方式在许多游戏中比现代深度强化学习算法或进化策略表现得更好，同时由于更好的并行化能达到更快的速度。不过这种方法虽好但当时对于硬件的要求很高，近日 Uber 新的开源项目解决了这一问题，其代码可以让一

08

深度神经进化加速：只需 4 个小时就在个人电脑上训练出强化学习模型

AI 研习社：近日 Uber AI Lab 开源了一组进化算法代码，它的特点是可以高速（同时也更廉价地）进行进化策略研究。根据介绍，训练神经网络玩 Atari 游戏的时间可以从原来在 720 个 CPU 组成的集群上花费 1 个小时，到现在在一台桌面级电脑上只需要 4 个小时。

03

干货 | 深度神经进化加速：只需 4 个小时就在个人电脑上训练出强化学习模型

近日 Uber AI Lab 开源了一组进化算法代码，它的特点是可以高速（同时也更廉价地）进行进化策略研究。根据介绍，训练神经网络玩 Atari 游戏的时间可以从原来在 720 个 CPU 组成的集群上花费 1 个小时，到现在在一台桌面级电脑上只需要 4 个小时。

02

改动一行代码，PyTorch训练三倍提速，这些「高级技术」是关键

近日，深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 在 CVPR 2023 上发表了主题演讲「Scaling PyTorch Model Training With Minimal Code Changes」。

03

Uber开源Atari，让个人计算机也可以快速进行深度神经进化研究

Uber近期发布了一篇文章，公开了五篇关于深度神经进化的论文，其中包括发现了遗传算法可以解决深层强化学习问题，而一些流行的方法也可替代遗传算法，如深度Q-learning和策略梯度。这项研究是Salimans等人在2017年进行的，另一种神经进化算法，即进化策略（ES）同样可以解决问题。Uber进一步阐述了以下问题：如何通过更多地探索更新智能体所带来的压力形式来改进ES；ES是如何与梯度下降联系起来的。这些研究花费巨大，通常需要720到3000个CPU，并分布在巨大，高性能的计算集群中，因此对于大多数研究人员、学生、公司和业余爱好者来说，深度神经进化研究似乎遥不可及。

04

【业界】IBM称其机器学习库的速度比TensorFlow快了46倍

AiTechYun 编辑：nanan IBM声称POWER9服务器和Beastly处理器（GPU）相结合，可以让Google Cloud发生颠覆。 IBM宣称，其POWER服务器上的机器学习不仅比Go

04

比 TensorFlow 云快 46 倍！IBM 用 Snap ML 和 Tesla V100 秀肌肉

AI 研习社按：TensorFlow 的机器学习库可以说大家都已经很熟悉了，但 IBM 的研究人员们表示这都是小意思。

02

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Syst

本系列我们开始分析 TensorFlow 的分布式。之前在机器学习分布式这一系列分析之中，我们大多是以 PyTorch 为例，结合其他框架/库来穿插完成。但是缺少了 TensorFlow 就会觉得整个世界（系列）都是不完美的，不单单因为 TensorFlow 本身的影响力，更因为 TensorFlow 分布式有自己的鲜明特色，对于技术爱好者来说是一个巨大宝藏。

02

[翻译] 使用 TensorFlow 进行分布式训练

https://tensorflow.google.cn/guide/distributed_training（此文的信息是2.3版本之前）。

02

Tensorflow入门教程（十七）——动手实现多GPU训练医学影像分割案例

在之前的Tensorflow入门教程（九）中我简单介绍了Tensorflow数据并行多GPU处理的思路，今天我将结合具体的例子来详细说一说如何去实现。

05

边缘计算笔记（一）: Jetson TX2上从TensorFlow 到TensorRT

NVIDIA去年发布了一个线上讲座，题目是《 AI at the Edge TensorFlow to TensorRT on Jetson 》。

05

机器学习者必知的 5 种深度学习框架

本文为雷锋字幕组编译的技术博客，原标题 The 5 Deep Learning Frameworks Every Serious Machine Learner Should Be Familiar With，作者为James Le。

03

0691-1.4.0-GPU环境下CDSW运行TensorFlow案例

介绍如何在CDSW中安装集成CUDA9.2版本的tensorflow模块，以及在GPU环境下运行tensorflow案例。代码参考上一篇文章《0690-TensorFlow之车牌识别案例》，CDSW的GPU的支持与CUDA编译参考之前的文章《如何在CDSW中使用GPU运行深度学习》和《0490-如何为GPU环境编译CUDA9.2的TensorFlow1.8与1.12》。

02

改动一行代码，PyTorch训练三倍提速，这些「高级技术」是关键

GitHub 地址：https://github.com/rasbt/cvpr2023

03

3.训练模型之在GPU上训练的环境安装

一般来说我们会在笔记本或者 PC 端编写模型和训练代码，准备一些数据，配置训练之后会在笔记本或者 PC 端做一个简单验证，如果这些代码数据都 OK 的话，然后真正的训练放在计算力更强的的计算机上面执行，一般来说至少有一块或者多块 GPU，有相当好的显存和内存，接下来实验一下。选择一个支持 TensorFlow GPU 的计算机当务之急是找到一块可以用于 TensorFlow 的显卡，TensorFlow 只支持在 NVIDIA 的部分高端显卡上面进行 GPU 加速，在 NVIDIA 开发者中心可以找到

06

美团深度学习系统的工程实践

深度学习作为AI时代的核心技术，已经被应用于众多场景。在系统设计层面，由于它具有计算密集的特性，所以与传统的机器学习算法在工程实践过程中存在诸多的不同。本文将介绍美团平台在应用深度学习技术的过程中，相关系统设计的一些经验。

03

AI框架：9大主流分布式深度学习框架简介

转载翻译Medium上一篇关于分布式深度学习框架的文章 https://medium.com/@mlblogging.k/9-libraries-for-parallel-distributed-training-inference-of-deep-learning-models-5faa86199c1fmedium.com/@mlblogging.k/9-libraries-for-parallel-distributed-training-inference-of-deep-learning-models-5faa86199c1f

01

腾讯高性能计算服务星辰.机智，海量算力，智造未来

一、背景 AI时代已经来临，AI将越来越深刻的影响和改变我们的生活。还记得目光深邃，功能多样的机械姬吗？也许这一天也不会太远。智造AI，需要数据、算力、算法，怎么样高效率的将这三者结合在一起，生产满足需求的AI，是每一个产品团队，尤其是团队中算法工程师面临的问题。 TEG星辰和机智团队希望搭建一个稳定高效可依赖的AI算力基础设施环境，帮助产品团队加速产品的研发迭代，目前看已初步取得了一些成果，星辰算力为全公司提供统一的CPU/GPU算力服务。机智加速机器学习平台基于星辰算力，在计算加速能力上具备行

04

如何使用keras，python和深度学习进行多GPU训练

Keras简单而优雅，类似于scikit-learn。然而，它非常强大，能够实施和训练最先进的深度神经网络。

03

分布式深度学习框架PK：Caffe-MPI, CNTK, MXNet ，TensorFlow性能大比拼

作者：施少怀褚晓文编译：弗格森马文【新智元导读】这篇论文评估了四个state-of-the-art 的分布式深度学习框架，即Caffe-MPI, CNTK, MXNet 和 TensorFlow分别在单个GPU、多GPU和多节点的环境中的表现。在学术和产业界，深度学习框架都已经被广泛地部署在面向深度学习应用的GPU服务器中。在深度神经网络的训练过程中，有许多标准的进程或者算法，比如卷积或者随机梯度下降（SGD），但是，不同的框架的运行性能是不一样的，即使是在相同的GPU硬件下运行相同深度的模型

07

做深度学习这么多年还不会挑GPU？这儿有份选购全攻略

一个好的GPU可以让你快速获得实践经验，而这些经验是正是建立专业知识的关键。如果没有这种快速的反馈，你会花费过多时间，从错误中吸取教训。

05

Transformers 4.37 中文文档（九）

如果在单个 GPU 上训练模型太慢或者模型的权重无法适应单个 GPU 的内存，则过渡到多 GPU 设置可能是一个可行的选择。在进行此过渡之前，彻底探索在单个 GPU 上进行高效训练的方法和工具中涵盖的所有策略，因为它们普遍适用于任意数量的 GPU 上的模型训练。一旦您采用了这些策略并发现它们在单个 GPU 上不足以满足您的情况时，请考虑转移到多个 GPU。

01

Caffe、TensorFlow、MXnet

Caffe已经很久没有更新过了，曾经的霸主地位果然还是被tensorflow给终结了，特别是从0.8版本开始，tensorflow开始支持分布式，一声叹息…MXNet还是那么拼命，支持的语言新增了四种，Matlab/Javascripts/C++/Scala，文档也变的更漂亮了，还推出了手机上图片识别的demo[8]。 1 基本数据结构库名称数据结构名称设计方式CaffeBlob存储的数据可以看成N维的c数组，有(n,k,h,w)四个维数，一个blob里面有两块数据空间保存前向和后向求导数据MXNetND

09

事实胜于雄辩,苹果MacOs能不能玩儿机器/深度(ml/dl)学习(Python3.10/Tensorflow2)

坊间有传MacOs系统不适合机器(ml)学习和深度(dl)学习，这是板上钉钉的刻板印象，就好像有人说女生不适合编程一样的离谱。现而今，无论是Pytorch框架的MPS模式，还是最新的Tensorflow2框架，都已经可以在M1/M2芯片的Mac系统中毫无桎梏地使用GPU显卡设备，本次我们来分享如何在苹果MacOS系统上安装和配置Tensorflow2框架（CPU/GPU）。

02

有钱任性：英伟达训练80亿参数量GPT-2，1475块V100 53分钟训练BERT

2）将 BERT 的推理时间缩短到了 2.2 毫秒（10 毫秒已经是业界公认的高水平）；

02

腾讯开源 TurboTransformers，推理加速性能超越 TensorRT 等主流优化引擎！

在自然语言处理领域，以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新，为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时，也引入了更多的计算量，这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。

03

腾讯开源TurboTransformers，推理加速性能超越TensorRT等主流优化引擎

在自然语言处理领域，以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新，为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时，也引入了更多的计算量，这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。

骑车不戴头盔识别检测系统

骑车不戴头盔识别检测系统通过GPU深度学习技术，骑车不戴头盔识别检测系统对行驶在马路上的骑电动摩托车等未戴头盔的行为进行抓拍，骑车不戴头盔识别检测系统不经过人为干预自动对上述违规行为进行自动抓拍识别。骑车不戴头盔识别检测系统技术上采用 Tesnorflow+TensorRT推理组合，精度高速度快更实用。深度学习应用到实际问题中，一个非常棘手的问题是训练模型时计算量太大。为了加速训练，TensorFlow可以利用GPU或/和分布式计算进行模型训练。TensorFlow可以通过td.device函数来指定运行每个操作的设备，这个设备可以是本设备的CPU或GPU，也可以是远程的某一台设备。

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭