为什么更多的输出数据使用使用TensorRT的INT8推理

TensorRT是英伟达开发的一个高性能深度学习推理优化器，用于加速深度学习模型的推理过程。而INT8则是一种低精度数据类型，表示8位整数，相比于传统的浮点数数据类型，INT8在存储和计算上具有更低的资源消耗。

更多输出数据使用TensorRT的INT8推理的原因如下：

高性能：使用INT8数据类型可以大大提高推理的计算性能，因为相比于浮点数数据类型，INT8需要更少的计算资源。这意味着可以在相同的硬件资源上运行更多的推理任务，提高系统的整体效率。
节省内存：由于INT8数据类型使用更少的位数表示每个数据点，相比于浮点数数据类型，可以大大减少内存的使用量。这对于需要处理大规模数据集的任务尤为重要，可以节省存储资源并加快数据传输速度。
降低功耗：由于INT8数据类型在计算和存储上的资源消耗更低，可以减少能源的使用量，降低系统的功耗。这对于移动设备和嵌入式系统等有限资源的设备尤为重要，可以延长电池寿命和提高设备的效能。
模型压缩：通过将模型参数和激活值转换为INT8数据类型，可以大大减小模型的存储空间。这对于在部署和传输模型时非常有益，可以减少模型的体积和加载时间。
兼容性：TensorRT支持INT8推理，因此可以无缝地集成到已经使用TensorRT进行加速的深度学习推理流程中。这样，用户可以享受到TensorRT带来的加速优势，同时使用INT8数据类型进行更高效的推理。

对于更多输出数据使用TensorRT的INT8推理，腾讯云提供了TensorRT的相关产品和服务。您可以通过腾讯云的TensorRT产品页面了解更多详情：https://cloud.tencent.com/product/trt

为什么更多的输出数据使用使用TensorRT的INT8推理

、

使用TensorRT实现了INT8引擎推理。训练批量为50，推理批量为1。但在输出推理时 [outputs] = common.do_inference(context, bindings=bindings, inputs=inputs, outputs=outputs, stream=stream, batch_size=1) 输出大小为13680000。使用FP32/FP16产生的输出</em

浏览 26提问于2019-06-19得票数 0

回答已采纳

1回答

TensorFlowLite、TendorFlow-TRT和TensorRT的主要区别是什么？

、、、

这就是我如何了解TensorFlow-Lite，TensorFlow-TRT和TensorRT的.我有一些关于他们的问题：e.应用量化(INT8)当使用TensorFlow-TRT和TensorRT时，管道是什么？有什么地方可以找到关于

浏览 6提问于2020-09-07得票数 1

1回答

TensorRT/TFlite示例实现

、、、

有了经过训练的“.h5”Keras模型文件，我正在尝试优化推理时间： “int8”量化。此时，我可以将模型文件转换为TensorFlow protobuf '.pb‘格式，但作为一个侧面，它还包含几个层的自定义对象。看到了一些关于TensorRT转换和TFLite转换的文章，但我似乎找不到一个可读的健壮实现。有人能解释一下如何做到这一点(TFLi

浏览 1提问于2019-07-06得票数 3

1回答

如何提高YOLOv3检测时间？(OpenCV + Python)

、、

我使用的是YOLOv3自定义培训模型，OpenCV 4.2.0是用CUDA编译的。当我用Python测试代码时，我在GPU上使用OpenCV (GTX1050，Ti)，但是对单个图像(416 FPS 416 FPS)的检测需要0.055 s (~20 FPS)。我的配置文件被设置为小对象检测，因为我需要在2500 pxx2000px图像上检测~10 pxx10px对象，所以我将原始图像分割成30个小块。我的目标是在416 px416px图像上达到0.013 s (~80

浏览 4提问于2020-07-08得票数 2

回答已采纳

1回答

TensorRT“浮点16”精度模式在Jetson TX2上是不确定的吗？

、、、、

我正在使用TensorRT FP16精密模式来优化我的深度学习模型。我在Jetson TX2上使用了这个优化模型。在测试模型时，我发现TensorRT推理机是而不是确定性。换句话说，对于相同的输入图像，我的优化模型给出了不同的FPS值在40到120 FPS之间。当我看到关于数据自动化系统的评论时，我开始认为非决定论的根源是浮点操作： “如果您的代码使用<

浏览 1提问于2019-07-19得票数 1

回答已采纳

1回答

优化感度--流动目标检测模型V2中心网评价模型

、、、、

我正在使用Nvidia Tesla P100上的tensorflow 对象检测模型来提取边界框和关键点，用于检测视频中的人。使用来自tensorflow.org的预训练，我能够处理大约16帧每秒.有没有办法提高这个模型的评估速度？硬编码输入大小最初试图转换为TensorRT的尝试没有任何性能改进。批处理预

浏览 0提问于2020-11-04得票数 5

1回答

如何将grid_sample模型转换为INT8量化的TensorRT模型？

、、、

我试图通过ONNX (opset 11)将torch.nn.functional.grid_sample的模型从Pytorch (1.9)转换为使用INT8量化的INT8 (7)。因此，我将ONNX图形外科医生与外部GridSamplePlugin一起使用，因为它是。有了它，转换到TensorRT (有和没有INT8量化)是成功的。在这种情况下，TensorRT结果与不带INT8量化的</e

浏览 2提问于2021-09-13得票数 0

3回答

坦索尔特的速度没有提高

、

我有Openpose的。输出是Converting to UFF graphUFF Output written to cmu/cmu_openpose.uff 我如何知道转换是正确的，

浏览 0提问于2019-06-04得票数 0

回答已采纳

2回答

如何使用Nvidia的张量RT在Jetson TX1上运行预先训练的tensorflow模型？

、、、

在Nvidia的博客中，他们介绍了他们的TensorRT如下： NVIDIA TensorRT™是一种用于生产部署深度学习应用的高性能神经网络推理机。TensorRT可用于快速优化、验证和部署经过训练的神经网络，用于向超级计算机数据中心、嵌入式或汽车产品平台进行推理。所以我想知道，如果我有一个预先训练过的Tensorflow模型，我能在Jetson TX1中的Tensor

浏览 4提问于2017-02-24得票数 0

2回答

如何在Tegra X2上使用TesnorFlow-GPU模型进行推理？

、、、、

我是Jetson x2董事会的新手。现在我怀疑，如果在tx2板上安装tensorflow-gpu是正确的选择吗？tensorflow和tensorRT会合作取代tensorflow-gpu吗？但是怎么做呢？那么，我需要在我的火车和测试p

浏览 2提问于2018-11-23得票数 1

回答已采纳

3回答

Deeplab到TensorRT的转换

、、、、

将Deeplab Tensorflow模型转换为TensorRT模型会显著增加推理时间，我在代码中做错了什么？这里我正在做从Tensorflow图到TensorRT图的转换，并保存这个新的TRT模型： # read Tensorflowtf_graphf, outputs=OUTPUT_NAME, max_batch_size=2, max_workspace_size_bytes=2 * (10 ** 9)

浏览 4提问于2019-01-30得票数 0

3回答

TensorRT 5.1没有create_inference_graph属性

、、

我想优化我的神经网络(来自谷歌的Resnet101)，以便使用TensorRT (ver.5.1)。我一直在寻找如何做到这一点的博客和教程，并找到了一些像和其他一些东西。batch_size, precision_mode=”INT8") 但问题是，我的TensorRT版本没有这样的</e

浏览 134提问于2019-04-30得票数 0

回答已采纳

2回答

TensorFlow默认精度模式？

、、

我正在使用TensorFlow 1.14并测试TensorRT；正如我在文档中看到的那样，TensorRT支持3种精确模式："FP32“、"FP16”和"INT8“。因此，我想知道TensorFlow的默认精确模式是什么；我想它是FP32，但我不完全确定这一点？

浏览 5提问于2020-09-02得票数 1

回答已采纳

1回答

如何使用DeepLearningExamples为Resnet50v1.5运行NVIDIA DeepLearningExamples

、

为Resnet50v1.5提供了float32和float16精度方面的推断基准测试，但没有在int8中提供，所以以前是否有人尝试过在int8中运行这些测试？任何关于如何去做的建议和建议都是非常感谢的。更新:我正在尝试用int8进行测试，但由于tf.layers.conv2d不接受整型类型，所以目前在tf.layers.conv2d上抱怨类型不匹配。

浏览 6提问于2020-09-16得票数 2

回答已采纳

1回答

可以在Jetson中运行yolo模型而不对其进行优化吗？

、、、

我很少遇到将yolo.weight模型转换为tensorRT的问题。那么，是否有可能在Jetson中运行yolo模型，并将其优化为TensorRT？会有同样的检测速度吗？或者还有其他替代TensorRT的建议吗？

浏览 5提问于2020-03-23得票数 0

回答已采纳

1回答

Tensorflow-Onnx-Tensorrt的准确度下降

、、

Tensorflow模型被转换为ONNX并转换为TensorRT。TensorRT引擎以16位精度运行.在TensorRT中，准确率下降到75%。即使使用kTF32，准确率仍为75%。测试相同的图像为两个测试和相同的输入大小。我该从哪里看这个精度下降的地方？唯一的区别是我在TensorRT中进行批处理推理，而不是在Tensorflow中。对于Tensorflow和TensorRT，使用</

浏览 6提问于2020-09-11得票数 0

回答已采纳

1回答

为什么tf-serving不能部署tensorrt优化的pb？

、、

我正在使用tensorrt来加速Tacotron2模型的推理速度。我用过trt.create_inference_graph(outputsargs.version), output_saved_model_dir=args.output_

浏览 25提问于2019-10-30得票数 2

1回答

如何管理多线程GPU应用程序中的cuda流和TensorRT上下文？

、

对于tensorrt文件，我们将将其加载到引擎中，并为引擎创建Tensorrt上下文。然后，通过调用context->enqueueV2 2()，使用cuda流进行推理。TensorRT是如何关联库达流和坦索尔特上下文的？我们可以使用多个流与一个坦索尔的上下文吗？在多线程C++应用程序中，每个线程使用一个模型进行推理，一个模型可能加载在多个线程中；那么，在一个线程中，我们只需要一个引擎、一个上下文和一个流还是

浏览 70提问于2022-07-21得票数 0

1回答

CNN对Jetson的推断很慢

、、

我认为在nVidia Jetson上运行的是一个非常轻量级的CNN，带有Jetpack4.4。nVidia声称纳米可以以36的价格运行ResNet-50.，因此我期望我的小得多的网络能够轻松地在30+ fps上运行。我的推理代码有什么根本问题吗？，我

浏览 0提问于2021-01-06得票数 1

回答已采纳

1回答

TF-TRT无法在JetsonNano中构建引擎

、、、、

我使用的是带有JetPack 4.4.1、Tensorflow 2.3.1和Tensorrt7.1.3的JetsonNano。我有一个转换为TF-TRT模型的Keras模型TF-TRT Warning: Engine creation for PartitionedCall/TRTEngineOpReason: Internal: Failed to build TensorRT engineW

浏览 37提问于2021-02-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么更多的输出数据使用使用TensorRT的INT8推理

相关·内容

为什么更多的输出数据使用使用TensorRT的INT8推理

TensorFlowLite、TendorFlow-TRT和TensorRT的主要区别是什么？

TensorRT/TFlite示例实现

如何提高YOLOv3检测时间？(OpenCV + Python)

TensorRT“浮点16”精度模式在Jetson TX2上是不确定的吗？

优化感度--流动目标检测模型V2中心网评价模型

如何将grid_sample模型转换为INT8量化的TensorRT模型？

坦索尔特的速度没有提高

如何使用Nvidia的张量RT在Jetson TX1上运行预先训练的tensorflow模型？

如何在Tegra X2上使用TesnorFlow-GPU模型进行推理？

Deeplab到TensorRT的转换

TensorRT 5.1没有create_inference_graph属性

TensorFlow默认精度模式？

如何使用DeepLearningExamples为Resnet50v1.5运行NVIDIA DeepLearningExamples

可以在Jetson中运行yolo模型而不对其进行优化吗？

Tensorflow-Onnx-Tensorrt的准确度下降

为什么tf-serving不能部署tensorrt优化的pb？

如何管理多线程GPU应用程序中的cuda流和TensorRT上下文？

CNN对Jetson的推断很慢

TF-TRT无法在JetsonNano中构建引擎

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐