我正在为远程hdfs构建一个local disk cache,当从hdfs读取时,系统将在本地磁盘上缓存文件。我认为这会增加吞吐量。如果从PageCache读取数据,它确实会有很大的改善;但是,如果清除PageCache,则磁盘IO的性能在不同的测试条件下是不稳定的。具体来说,我通过数据库测试了Parquet文件(每个文件100 To )。在这个测试中,除了文件系统接口之外,所有代码都是相同的,包括线程数(一般来说,文件越多,线程越多)。
事实上,具体的测试结果不再重要
我想测试各种数据存储的性能,即主实例、数据池、HDFS -存储池和ADLS-存储池(通过HDFS分层)。针对池--数据池、HDFS-存储池和ADLS-存储池--我创建了要访问的外部表,如下面的脚本所示。From [dbo].[HDFS_StoragePool_Flights] F
我的测试结果在预期线上吗?我希望至少在数据池选项中获得相当好的
我想在hadoop集群上进行压力/性能测试。为了做到这一点,我遵循了给出的指令。不同之处在于,在教程中,他谈论的是Hadoop0.20.0版本,我试图在Hadoop2.4.0中运行类似的内容。对于在Hadoop上执行IO性能测试,他在教程中告诉我使用TestDFSIO。但我在hadoop的安装中找不到同样的东西。为了找到TestDFSIO,我尝试了以下命令,
jar tf /home/hadoop/share/hadoop/hdfs/h