我们可以访问一个千兆字节的HDF5文件,因为它是在许多分钟内编写的。当文件可用时,我们想要提取写入文件的最新数据(子第二时间帧)。
在写入HDF5文件时,是否有任何方法将其读取为字节流?
我看到这个问题(在java流中读取HDF5) w.r.t。Java似乎暗示,在较低级别的HDF5工具中,流可能是可能的,但在特定的java包中却不是这样。
特别要注意的是,H5PY python包有一组低级API,我不太熟悉这些API,不知道它们是否提供了解决方案。
发布于 2021-11-12 16:53:51
通过高延迟、高带宽的网络连接读取数据流的关键是减少对read(n)
文件的调用次数,这些调用是连续的。HDF5有一个名为“用户块大小”的特性,它是在创建文件或使用h5repack
工具重置文件时设置的。
用户块大小在下面的SO文章中描述。总之,数据存储在用户指定维度的块中。例如,形状为1Mx128的表的块大小为10kx1,它将数据存储在10k块(1列)中。
当从python对象读取数据时(这是典型的,如果您有网络访问的文件),对数据的任何访问都将导致大约6个小的头读取,然后数据读取将是每用户块大小1 read(n)
。(不幸的是)对read(n)
的调用是连续的,所以很多小的读取在网络上都是缓慢的。因此,将块大小设置为合理的用例将减少read(n)
调用的数量。
请注意,这里经常会有一个折衷方案。设置10kx128的块大小将强制读取所有128列,不能只读取具有该块大小的1列。但是,设置10 kx1的块大小意味着对所有128个通道的读取将导致每10k行128个read(n)
调用。
如果您的数据没有按您的目的有效打包,您可以使用h5repack
重新包装它(这是一个缓慢的一次性过程,不会更改数据,只是包装顺序)。
https://stackoverflow.com/questions/67511338
复制相似问题