Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在Google Cloud ML Engine中处理大型视频数据集？

问如何在Google Cloud ML Engine中处理大型视频数据集？
EN

Stack Overflow用户

提问于 2018-10-26 14:51:22

回答 1查看 198关注 0票数 1

我正在尝试使用Cloud ML Engine中的Keras进行视频分类。我的数据集包含在另存为单独图像的视频序列中(例如，seq1_frame1.png，seq1.frame2.png...)我已经上传到了GCS存储桶中。

我使用了一个引用不同子剪辑结束帧开始的csv文件，以及一个向模型提供批量剪辑的生成器。生成器负责从存储桶中加载帧，将它们作为图像读取，并将它们连接为numpy数组。

我的训练是相当长的，我怀疑生成器是我的瓶颈，因为大量的读取操作。

在我在网上找到的例子中，人们通常将预先格式化的剪辑直接保存为tfrecords文件到GCS。我觉得这个解决方案对于非常大的数据集并不理想，因为它意味着复制数据，如果我们决定提取重叠的子剪辑，就更是如此。

我的方法有什么问题吗？更重要的是，对于使用大型视频数据集进行机器学习，是否有一个“黄金标准”？

PS :我解释了我的设置以供参考，但我的问题并不局限于Keras，generators或Cloud ML。

google-cloud-ml

google-cloud-storage

平台电商解决方案

为客户提供电商客服、电商图片系统识别及搜索的快速搭建方案

EN

回答 1

Stack Overflow用户

发布于 2018-10-26 15:12:42

在这种情况下，你几乎总是要用时间来换取空间。你只需要找出哪个更重要。

理论上，每一帧都有高度*宽度*3个字节。假设有3个颜色通道。节省空间的一种可能方法是只使用一个通道(可能选择绿色，或者更好地将整个数据集转换为灰度)。这将使您的全尺寸视频数据减少到三分之一。视频中的颜色数据往往比亮度数据的分辨率低，因此它可能不会影响您的训练，但这取决于源文件。

正如您可能知道的，.png是一种无损图像压缩。每次加载时，生成器都必须先解压缩，然后连接到剪辑。您可以使用不同的压缩编解码器来节省更多的空间，但这意味着每个剪辑都需要完全解压缩，并且可能会增加您的时间。你说得对，反复解压需要时间。并且保存未压缩的视频将占用相当多的空间。不过，也有一些地方可以节省空间：

reduce to greyscale (或作为above)
temporally子采样帧的绿色比例)
您是使用整个帧还是只使用补丁？您可以裁剪或重新缩放视频序列吗？
您是否正在使用光流？这相当占用处理器资源，也可以将其视为预处理步骤，因此每个剪辑只需执行一次(同样，这是用空间换取时间)

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53011315

复制

相关文章

Confluence 6 内容在空间中是如何组织的

你可以将空间考虑为一个容器，在这个容器中保持了有关你项目中所有重要的东西，包括小组，项目或者项目相关的工作。这些东西有很高的自主性，这表示的是每个空间都有自己的的页面，文件，评论以及 RSS 新闻源。

HoneyMoose

2019/01/30

5540

Confluence 6 内容在空间中是如何组织的

实施ERP的最佳方法是什么

也许您已决定加入潮流，并在公司中实施企业资源计划或ERP，或者您要从当前的ERP系统进行升级。令人恐惧的部分可能是进行更改。您应该放弃所有内容并立即启动ERP还是可以分阶段实施？

深圳ERP

2019/12/13

9350

去掉 WordPress 分类目录 URL 中的 category 最佳方法

wordpress url 博客插件后台

WordPress 默认的分类目录 URL 中是带 category 的，比如我爱水煮鱼的 WordPress 的分类目录的 URL https://blog.wpjam.com/category/wordpress/ 就带了 category。

Denis

2023/04/13

7220

去掉 WordPress 分类目录 URL 中的 category 最佳方法

class文件中的方法表集合--method方法在class文件中是怎样组织的

jvm 编程算法 java

了解JVM虚拟机原理是每一个Java程序员修炼的必经之路。但是由于JVM虚拟机中有很多的东西讲述的比较宽泛，在当前接触到的关于JVM虚拟机原理的教程或者博客中，绝大部分都是充斥的文字性的描述，很难给人以形象化的认知，看完之后感觉还是稀里糊涂的。

亦山

2019/05/25

1.7K0

Code Embed：在WordPress文章和页面中添加Javascript的最佳插件

wordpress 网站建设 node.js html javascript

自从又开始迷上了WordPress，每天都会花不少时间在WordPress相关的网站上闲逛，这感觉竟然有点像分手复合又陷入了热恋的情人，没事就腻歪在一起，要把之前错过的时间都补回来。。。

丘壑

2019/04/19

4.7K0

Code Embed：在WordPress文章和页面中添加Javascript的最佳插件

确保云安全的最佳方法是什么?

云计算数据库 sql 容器企业

随着云计算成为企业开展业务的一种基础技术，云安全已变得至关重要。然而，充分了解云安全的最佳策略是一个真正的挑战。

静一

2020/03/25

7140

在Windows 10计算机上安装Python的最佳方法是什么？

python anaconda windows

Python 是一种流行的通用编程语言，广泛用于各种目的，包括 Web 开发、数据分析、人工智能等。因此，对于开发人员和程序员来说，了解如何在Windows 10计算机上安装Python有深入的了解非常重要。在本文中，我们将讨论在Windows 10计算机上安装Python的最佳方法，包括每种方法的分步指南。

很酷的站长

2023/02/18

2.4K0

在Windows 10计算机上安装Python的最佳方法是什么？

WordPress主题中加载jQuery的最佳方法

jquery cdn javascript wordpress 网站建设

一般来说，在html页面底部（也就是</body>之前）引入JavaScript，如jQuery 和 jQuery插件是个不错的做法。原因很简单，HTTP / 1.1规范表明浏览器不能并行下载两个以上的组件。

丘壑

2019/03/13

2.6K0

xwiki功能-内容组织

可以通过把页面嵌在其他页面（即文档）来组织内容。每个页面通常保存关于某个特定主题的内容。

lovelife110

2021/01/14

9690

勒索组织正在攻击整个城市

服务器软件事件数据网络

近日，LockBit 3.0网络犯罪团伙声称对加拿大韦斯特蒙市政服务平台瘫痪和关闭员工电子邮件账户的勒索软件攻击事件负责，并要求该市在12月4日前支付赎金。根据韦斯特蒙市报道，该市的电子邮件服务因不明原因的计算机故障而无法使用，并且该故障也影响了其他市政服务。后经证实该次故障源于一次有针对性的网络攻击。韦斯特蒙市长Christina Smith在一份声明中说："网络攻击在我们的社会中变得越来越普遍和复杂，尽管我们采取了所有的措施，公共管理部门也不能完全避免这种恶意的攻击”。"我向所有韦斯特蒙市民保证，

FB客服

2023/03/29

1980

城市消费券之地理位置攻防

tcp/ip 网络安全

近期，顶象发布了《城市消费券安全调研报告》（以下简称《调研报告》）。《调研报告》从城市消费券的发放规模、核销情况、风险出发，进一步分析除了黑灰产的作弊手段以及作弊工具。

顶象技术

2022/12/15

4410

数据中的城市，城市中的数据

点击标题下「大数据文摘」可快捷关注 [今日3篇文章] 1.数据中的城市，城市中的数据 2.解密：“女博士”如何领导美帝神秘机构DARPA 3.2014年可穿戴设备之非官方报告作者:凯尔·格雷科（Kael Greco）译者:ilovesnoopy（北京大学光华学院硕士）校对:EcnMcheDsgn （UCLA本科，MIT机械工程学博士）独眼一点五（华东师范大学中文系硕士）摘自：译言 2007年年初，一群Google Earth的用户在圣地亚哥发现了一件奇怪的事情。在使用最新发布的卫星影像进行俯瞰时

大数据文摘

2018/05/22

1.3K0

WordPress 教程：在 WordPress 中如何使用 Dashicons

wordpress 插件后台教程开发者

Dashicons 是 WordPress 官方出的用于后台的图标字体，可以用于 WordPress 的各个地方，也可以用在 WordPreess 前台，但是你事先要加载相关的 CSS。

Denis

2023/04/13

9180

WordPress 教程：在 WordPress 中如何使用 Dashicons

智慧城市的定义是什么？

为了成功地改善数十亿人的生活条件，城市需要采用新的理念、新的方法和新的技术来管理和交付它们。这就是智慧城市的定义。

用户2605137

2022/04/12

6990

WordPress 网站正文顶端或者末尾插入固定内容的方法

wordpress 网站建设 php

WordPress 网站正文顶端或者末尾插入固定内容的方法。有时候需要WordPress每篇文章正文顶端或者末尾插入固定的内容，比如加个广告、版权声明之类的，你可以直接打开正文模板添加，不过还是利用WordPress函数模板functions.php添加代码比较方便。

主机教程网2bcd.com

2022/10/19

4320

将文本文件的内容存储在DataSet中的方法总结

数据处理存储

本文介绍了一种将文本文件的内容存储在DataSet中的方法，包括读取文件、处理数据、创建表、填充数据和解析记录等步骤。该方法包括读取文件、处理数据、创建表、填充数据和解析记录等步骤。

彭泽0902

2018/01/04

3.5K0

如何才能够更好地理解运营中的内容概念呢？

1、互联网上随处可见的文字、图片、视频甚至音频都可以称为内容，但更深一步说，其实所有用户感觉到的事物都叫内容。也就是说，内容是指用户可感知到的一切事物，不仅包括用户所看到的普通内容，也包括UI、ICO（图标）、缓冲界面等内容。很多人可能并不明白内容是什么，简单地说，一款产品100%都是由内容构成的。不论产品是电商类的还是社交类的，都完全由文字、UI、图片等组成。

大葡萄

2019/03/15

3030

WordPress 教程：在 WordPress 中如何设置定时作业

wordpress 管理函数教程事件

我们知道 Linux 服务器有个 Cron 的功能，可以用来设置定时执行的作业，但是并不是每个人都熟悉 Linux 系统，并且也不是所有的主机管理面板都有 Cron 栏目。

Denis

2023/04/13

2.4K0

WordPress 教程：在 WordPress 中如何设置定时作业

在MySQL中处理组织层次（中文路径）

假设有这样的组织层次，“某某局”，“某某局>某某部”，“某某局>某某部>某某下属组织”， “某某局”是一级组织所以他的组织层次就是他自己的组织名字，而类似“某某部”这样的二级组织，他们的组织层次就是“某某局>某某部”，中间用“>”(大于号)分隔，从一级组织一直到他自己的组织名字连接起来。

用户3579639

2018/10/19

1.2K0

Canonical 标签以及在 WordPress 中的应用

搜索引擎网站 wordpress 插件日志

Canonical 标签，中文叫做 URL 范式，是 Google，雅虎，微软等搜索引擎在2009年一起推出的一个标签（百度在2013年也终于支持），它主要用来解决由于 URL 形式不同而造成的重复内容的问题。

Denis

2023/04/15

9950

相似问题

使用FormData和AngularJS MVC上传多个文件

10

AngularJS用FormData API上传多个文件

16

使用formData()上传多个文件

1430

没有FormData的AngularJs文件上传

12

如何使用FormData上传AngularJS对象

32

活动推荐

玩转EdgeOne Pages有奖征集

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例