首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >HDF5中的数据可以作为字节流实时读取吗?

HDF5中的数据可以作为字节流实时读取吗?
EN

Stack Overflow用户
提问于 2021-05-12 21:43:16
回答 2查看 641关注 0票数 0

我们可以访问一个千兆字节的HDF5文件,因为它是在许多分钟内编写的。当文件可用时,我们想要提取写入文件的最新数据(子第二时间帧)。

在写入HDF5文件时,是否有任何方法将其读取为字节流?

我看到这个问题(在java流中读取HDF5) w.r.t。Java似乎暗示,在较低级别的HDF5工具中,流可能是可能的,但在特定的java包中却不是这样。

特别要注意的是,H5PY python包有一组低级API,我不太熟悉这些API,不知道它们是否提供了解决方案。

https://api.h5py.org/

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-11-12 16:53:51

通过高延迟、高带宽的网络连接读取数据流的关键是减少对read(n)文件的调用次数,这些调用是连续的。HDF5有一个名为“用户块大小”的特性,它是在创建文件或使用h5repack工具重置文件时设置的。

用户块大小在下面的SO文章中描述。总之,数据存储在用户指定维度的块中。例如,形状为1Mx128的表的块大小为10kx1,它将数据存储在10k块(1列)中。

HDF5中的块大小是多少?

当从python对象读取数据时(这是典型的,如果您有网络访问的文件),对数据的任何访问都将导致大约6个小的头读取,然后数据读取将是每用户块大小1 read(n)。(不幸的是)对read(n)的调用是连续的,所以很多小的读取在网络上都是缓慢的。因此,将块大小设置为合理的用例将减少read(n)调用的数量。

请注意,这里经常会有一个折衷方案。设置10kx128的块大小将强制读取所有128列,不能只读取具有该块大小的1列。但是,设置10 kx1的块大小意味着对所有128个通道的读取将导致每10k行128个read(n)调用。

如果您的数据没有按您的目的有效打包,您可以使用h5repack重新包装它(这是一个缓慢的一次性过程,不会更改数据,只是包装顺序)。

票数 0
EN

Stack Overflow用户

发布于 2021-11-30 14:58:39

我认为使用HDF5 SWMR (单作者/多读取器)可以满足您的要求。用户指南描述了它是如何工作的,现在在h5py附例中有了支持。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67511338

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档