在HDFS上写入数据需要很长时间

在HDFS上写入文件创建多个零件文件(200)并花费很长时间我正在将配置单元表(使用SqlContext.sql)加载到数据帧1(6K记录)并注册到临时表。我使用左外部连接更新dataframe 1和dataframe 2的值，并尝试将dataframe_1(6K记录)写入HDFS文件，这需要1小时30分钟。我尝试过在不合并的情况下重新分区(dataframe_1.rdd.repartition(

浏览 71提问于2019-05-18得票数 2

1回答

在启用了推测的情况下，如何在Spark中管理写入？

、、

假设我有一个Spark2.x应用程序，它启用了猜测(spark.speculation=true)，它将数据写入到HDFS上的特定位置。现在，如果任务(将数据写入HDFS)需要很长时间，Spark将在另一个执行器上创建同一任务的副本，并且这两个作业将并行运行。 Spark是如何处理这个问题的？显然，这两个任务不应该同时尝试在同一文件位置写入数据(

浏览 9提问于2020-12-11得票数 0

2回答

了解MapReduce性能？

、、、

在Hadoop中实现的MapReduce算法的性能主要受什么因素影响？我想知道磁盘写入的开销是否远远大于在节点处理大量数据所需的计算时间

浏览 0提问于2013-02-04得票数 1

回答已采纳

1回答

处理大数据中的复杂连接

、、、、

在设计报表时，我们可能需要加入许多表。例如，我需要加入四或五个表才能得到客户的电子邮件地址。(多亏了我们使用的电信模式) 我试图在hdfs (或者s3)中设计一个数据仓库。为了将emaill地址和自定义In写入到单元格上的表中:我需要使用sqoop命令将五个表中的全部数据提取到hdfs中。那我就得加入蜂巢里的这些桌子。因此，这个过程可能会持续很长时间来获取电子邮件

浏览 1提问于2017-09-07得票数 0

回答已采纳

1回答

如何在多个数据中心上进行flink检查点/保存点备份

、

我有flink应用程序，将在DC-1 (数据中心1)的节点上运行，我们计划使用HDFS或AMAZON-S3备份保存点和检查点状态。我的组织中对HDFS和S3的支持是，它不会将写入DC-1的数据复制到DC-2 (他们正在做这件事，但时间线很长)。考虑到这一点，有没有一种方法可以让flink本身以某种方式将flink检查点/保存点写入两个DC？谢谢

浏览 18提问于2021-11-22得票数 0

5回答

在文件分区为日期的情况下，从kafka写入hdfs的最有效方法是什么

、、

我正在做的项目，应该写通过kafka到hdfs。假设有在线服务器将消息写入kafka。每条消息都包含时间戳。我想创建一个作业，根据消息中的时间戳，输出将是一个或多个文件。例如，如果kafka中的数据是 ...它应该创建一个文件 kafka_file_2013-07-01_17_2.json // second chunk of

浏览 0提问于2013-07-02得票数 11

回答已采纳

1回答

带有混合输出端点的Mapreduce作业: S3和HDFS

、、、、

我有一个MR作业运行在电子病历，它存储的输出目前在S3。还原器的输出将是同一个映射器(想想标识映射器)的输入，我希望尽可能快地执行连续运行，而不是等待EMR写入S3，然后在“x”分钟之后安排映射器读取数据。写和读S3需要一段很长的时间(~3-5分钟)，所以我想知道是否有一种方法可以避免连续运行时阅读S3？此外，我还需要将mapreduce作业的输出写入S3，因为这些数据对我很重要，需要持久化。但是

浏览 3提问于2016-05-27得票数 1

2回答

将HDFS数据导入到Opentsdb

、、

我想知道是否有可能直接将数据从HDFS导入到Opentsdb。你能给我举一些例子/提示吗？我尝试使用exec，但没有成功的结果： hadoop jar path.jar org.apache.solr.hadoop.HdfsFindTool -find hdfs:///path -type

浏览 0提问于2015-04-17得票数 1

1回答

用于HDFS的EC2实例存储的最优RAID配置

、、、、

我试图确定在用于HDFS的3xd2.2x大型实例的实例存储上配置RAID数组是否有任何实际优势。最初，我计划只挂载每个商店，并将其添加为Hadoop的附加数据目录。由于耐久性是由HDFS本身处理的，因此没有必要从这个角度考虑RAID 1或5(例如:如果一个或所有存储在一个实例上失败，则通过从其他数据节点复制来提供持久性)。RAID 6似乎不切实际，因为已知的问题有很长的重建时间，并且由于2x奇偶写入降低了吞吐量性能(

浏览 0提问于2020-06-25得票数 0

回答已采纳

1回答

如何提高蜂窝的速度

、、

我从twitter收集数据并将其存储在hdfs上。我想根据时间戳对这些tweet进行排序，但这个查询需要很长时间。 1.5 gb的数据需要1分钟来排序，我认为这比预期的要多得多。

浏览 4提问于2015-08-21得票数 0

1回答

未完成dataproc群集更新(调整大小)命令

我们有一个针对大型作业动态调整大小的dataproc集群。我提交了一个集群大小调整请求，将我们的集群从10个工作者，3个抢占式工作者减少到它的原始大小(1M，2个工作者)，但这在一个小时后仍然没有完成。

浏览 5提问于2018-04-21得票数 1

1回答

反映hdfs中大表的变化

、

我在OLTP系统中有一个订单表。每个订单记录都有一个OrderStatus字段。我想在hdfs层上设计和填充数据仓库和数据集市。为了设计数据集市，我需要将整个order表导入到hdfs，然后需要不断地反映表上的更改。首先，我可以在初始加载过程中使用sqoop将

浏览 0提问于2017-09-07得票数 0

3回答

写入HDFS或Hbase的内容是否立即对Hadoop群集中的所有其他节点可见？

、、、

当Hadoop作业正在运行或正在进行时，如果我向HDFS或Hbase写入某些内容，那么该数据是否对群集中的所有节点都可见2.)如果不是立即，那么在多长时间后？3.)或者时间真的无法确定？

浏览 1提问于2012-02-12得票数 5

回答已采纳

1回答

SAS到HIVE2 Cloudera -试图写入错误

、、

在试图在hive2 db上写入时，我有以下错误：当试图写入新表或将行追加到现有表时，会出现此错误。

浏览 5提问于2022-02-10得票数 0

1回答

不带分区按键写入多个输出

、、

我有一个PySpark数据文件，其中包含600万人的记录，每个记录都有一个单独的userid。每个userid都有2000个条目。实际上，我并不关心这一点，因为我要将这些文件中的每一个写入另一个非HDFS服务器。output_file = '/path/to/some/hdfs/location' myDF.write.parti

浏览 0提问于2018-11-09得票数 0

1回答

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

、、、

目前，我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold，将写入HDFS上avro/json文件的数据大小限制在128 on。在检查点操作延迟一定时间后也关闭文件。由于我们在新项目中没有使用高级Flink特性，所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息写入hdfs (而不是旋转Fl

浏览 0提问于2018-08-08得票数 1

回答已采纳

1回答

spark在HDFS上读取压缩的json需要很长时间

、、

我在硬盘上有两个压缩的json文件(bz2)。我得把它们装进火种。为此，我首先启动了pyspark (shell)，然后执行以下查询： [Stage 0:> (8 + 4) /

浏览 7提问于2021-02-19得票数 0

1回答

如何减少HDFS* namenode中较大的性能差异*

、

我在HDFS namenode (v2.7)响应时间上遇到了严重的性能问题。特别是在流量高峰期，我的HDFS namenode超载，一些DFS操作(如列出目录)可能需要很长时间，这会影响我的Presto和其他Hadoop应用程序的查询响应时间。对解决方案有什么建议吗？

浏览 25提问于2019-06-15得票数 0

1回答

Spark结构化流运行过程中Presto的"not a Parquet file (太小)“

、、、、

我有一个管道设置，从Kafka读取数据，使用Spark结构化流处理数据，然后将拼花文件写入HDFS。数据查询的下游客户端使用Presto配置，以便将数据作为Hive表读取。星火作业在HDFS上创建一个零长度的Parquet文件。我希望能够连续写入适当的HDFS文件夹，而不会干扰Presto查询。该文件在HDFS上第一次可见为零长度文件，在:05处

浏览 3提问于2017-11-16得票数 1

回答已采纳

1回答

是否可以使用GPHDFS从Greenplum同时指向多个Hadoop群集？

、

我们有一个Greenplum环境，目前我们已将gphdfs配置为支持从Greenplum在HDFS上写入数据。对于不同的用户，需要写入不同的HDFS。是否可以为不同的用户配置不同的gphdfs配置，从而根据用户的不同，将数据写入其对应的已配置HDFS上？预期结果:从用户1开始，当我创建可写的外部表时，Location属性将类似于LOCATION (‘gphdfs:/&#x

浏览 44提问于2019-05-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在启用了推测的情况下，如何在Spark中管理写入？

了解MapReduce性能？

处理大数据中的复杂连接

如何在多个数据中心上进行flink检查点/保存点备份

在文件分区为日期的情况下，从kafka写入hdfs的最有效方法是什么

带有混合输出端点的Mapreduce作业: S3和HDFS

将HDFS数据导入到Opentsdb

用于HDFS的EC2实例存储的最优RAID配置

如何提高蜂窝的速度

未完成dataproc群集更新(调整大小)命令

反映hdfs中大表的变化

写入HDFS或Hbase的内容是否立即对Hadoop群集中的所有其他节点可见？

SAS到HIVE2 Cloudera -试图写入错误

不带分区按键写入多个输出

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

spark在HDFS上读取压缩的json需要很长时间

如何减少HDFS* namenode中较大的性能差异*

Spark结构化流运行过程中Presto的"not a Parquet file (太小)“

是否可以使用GPHDFS从Greenplum同时指向多个Hadoop群集？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐