如何在pyspark中高效地将大型.tsv文件上传到拆分列的Hive表中？

、、

我有一个很大(大约1000万行)的.tsv文件，其中有两列：'id‘和'group’。‘'Group’列实际上是某个id所属的所有组的列表，所以文件看起来像这样：id2 group2,group3,group4 id3 group1我需要使用pyspark将其上传到Hive表，但是我希望拆分group列，以便

浏览 3提问于2019-08-08得票数 2

回答已采纳

7回答

如何将Parquet文件读入Pandas DataFrame？

、、、、

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在内存中阅读的少量数据--在笔记本电脑上使用一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地文件系统上，要么在S3中。我不想分拆和配置其他

浏览 22提问于2015-11-19得票数 146

回答已采纳

1回答

使用Parquet文件格式为方案数据创建配置单元(0.10)表

、、、、

我有一个3级嵌套的java类形式的数据。我成功地使用avro Tools ReflectData创建了Avro schema，并使用ReflectDatumWriter将数据写出avro文件。在Hive中，我能够创建一个表，并使用 ('avro.schema.url'='hdfs:///schema.avsc'); 我可以看到有一些方法可以将相同<e

浏览 1提问于2014-10-15得票数 0

2回答

如何使用DataprocHiveOperator从Hive作业输出日志中提取查询结果？

、、、、

我试图使用气流构建数据迁移管道，源是Dataproc集群上的Hive表，目标是BigQuery。我使用DataprocHiveOperator从源获取模式和数据。这个操作符在内部使用Dataproc REST来提交和执行我们指定的Dataproc集群上的作业。输出将作为作业日志的一部分写入到文件中。我只需要这些日志的查询结果。到目前为止，我已经修改了driverOutputResourceUri代码

浏览 0提问于2019-09-03得票数 3

回答已采纳

5回答

Hive如何存储数据(从HDFS加载)？

、、、、

我对Hadoop组件(如NamedNode、DataNode、Job、Tracker )有很好的理解，以及它们如何协同工作，以高效的方式存储数据。在试图理解数据访问层(如Hive )的基本原理时，我需要了解表的数据(在Hive中创建)究竟存储在哪里？我们可以在Hive中创建外部和内部表。由于外部表可以在HDFS或任何其他文件系统

浏览 11提问于2015-10-28得票数 4

1回答

使用Python将多行插入到一个Hive表中

、

Hive是一个数据仓库，用于查询和聚合驻留在HDFS上的大型数据集。尽管如此，现在有了一个用于Hive / HCatalog的流API，如详细

浏览 4提问于2015-11-30得票数 4

1回答

Hive:由Hue插入到表中产生的文件数与pyspark不同。

、、、、

我有一个Cloudera集群，在这个集群上，我将大量数据存储在一个作为Parquet存储的Hive表中。该表由整数batch_id进行分区。我插入一批新行的工作流程是首先将行插入到暂存表中，然后插入到大型累积表中。我正在使用一个本地模式的脚本来完成这个任务。该脚本实质上是： sc = pyspark.Spark

浏览 2提问于2018-02-27得票数 0

1回答

基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么？

、、

由于数据的大小，这个问题与我在堆栈溢出上发现的不同，它是不重复的。基于该位置创建外部Impala表的最佳方法是什么？如果我需要

浏览 0提问于2018-07-23得票数 0

1回答

上传以制表符分隔的文件到bigtable

、、

我正在运行有10个节点的cassandra集群，每天上传巨大的tsvtab分离值文件，现在我想将我的项目转移到google bigtable中，以获得更好的性能和更低的延迟。我安装了google cloud big table 3节点集群，在云计算服务器1节点上安装了hbase插件，现在不知道如何开始将这些tsv文件上传到bigtable中。下面是我的</

浏览 0提问于2016-04-12得票数 0

2回答

Hive，HDFS数据到本地系统并返回

、、、

我是Hadoop政府的新手:) 我有一个由8个节点组成的ApacheHadoop2.4.1集群，使用了16 nodes (无法在任何xml文件中找到复制因子)，Hive0.13具有MySQL转移。目标：将集群上的数据备份到NFS驱动器，卸载集群，安装其他发行版(Cloudera，Hortonworks)，并将数据从NFS驱动器重新加载到这个新集群。有两个956 of的Hive表(大约90亿行)和32GB的</

浏览 4提问于2015-02-05得票数 1

1回答

直接从FTP下载公共数据到

、

我需要处理一些大型的可公开获取的大型基因组文件，并希望将它们存储在Google上。直接下载它们是有意义的，而且我能找到的最相似的事情就是设置一个数据传输。数据传输需要一个具有链接、大小和MD5的TSV文件的URL。在没有提供远程对象的情况下，您如何找到MD5？这有可能吗？我不知道为什么有必要在一个网址<em

浏览 0提问于2019-06-17得票数 0

3回答

我怎样才能用电火花显示蜂箱表？

、、、、

你好，我在蔚蓝上创建了一个星星之花高清洞察力集群，我试着用pyspark读取蜂窝表，但是它只显示默认数据库的问题有人有主意吗？

浏览 8提问于2022-02-23得票数 1

1回答

如何使用Qubole Hive查询从亚马逊S3的gz文件中查询数据？

、、、

我需要从gz那里得到具体的数据。如何编写sql？我可以用sql作为表数据库吗？

浏览 1提问于2017-03-22得票数 0

回答已采纳

2回答

以很少的条件将数据从hive/impala表导出到文件

、、

如何有效地将带有条件的hive/impala表中的数据导出到文件中(数据将是巨大的，接近10 GB)？hive表的格式是paraquet，压缩了snappy，文件是csv。该表每天进行分区，数据需要每天提取，我想知道是否impala-shell -k -i服务器名:portname -B -q 's

浏览 2提问于2016-08-08得票数 0

回答已采纳

4回答

PySpark:将SchemaRDD映射为SchemaRDD

、、、、

我正在以PySpark SchemaRDD的形式加载JSON对象的文件。我想改变对象的“形状”(基本上，我是在使它们变平)，然后插入到一个Hive表中。我遇到的问题是，以下内容返回的是PipelinedRDD而不是SchemaRDD(其中log_json是SchemaRDD)。是否有一种方法来保留类型，将类型转换回所需

浏览 5提问于2015-07-20得票数 1

回答已采纳

3回答

哪个数据库应该用来跟踪和归档通过PHP发送的电子邮件

、、、、

我们托管了大量静态文件供公众下载。PDF，Zips，图片，人们每天下载数千。我们跟踪MySQL数据库中的计数器，在MongoDB中跟踪详细信息(如下载来自何处和何时)。我们的应用程序倾向于每月发送数十万封电子邮件，其中许多是时事通讯、通知和项目邀请函。这些发送的电子邮件被保存到MySQL数据库中，它们的关键数据被序列化(从来没有正文或实际的电子邮件内容，只有标题、收件人、发送时间等)。 MySQL是这方面的好选择吗？蒙戈是吗？现在，我们

浏览 11提问于2012-02-23得票数 5

回答已采纳

1回答

如何除以星火DataFrame中列的和

、、

如何在不立即触发计算的情况下，高效地将列除以其在星火DataFrame中的自身和？假设我们有一些数据：from pyspark.sql import SparkSession, Windoww = Window.rowsBetween(Window

浏览 0提问于2018-01-31得票数 2

回答已采纳

1回答

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

、、、

目前，我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold，将写入HDFS上avro/json文件的数据大小限制在128 on。在检查点操作延迟一定时间后也关闭文件。由于我们在新项目中没有使用高级Flink特性，所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息写入hdfs (而不是旋转Flink)。但是，我无法找到限制卡夫卡连接器中<

浏览 0提问于2018-08-08得票数 1

回答已采纳

1回答

如何在Azure Delta湖上创建外部表(类似于Hive)

、、

如何在Azure数据湖存储上创建外部Delta表？我目前正在从事一个迁移项目(从Pyspark/Hadoop到Azure)。我找不到很多关于在Azure中创建非托管表的文档。下面是我目前能够在Pyspark/Hive/HDFS设置中执行的一系列操作，不知道如何在Azure上建立相同的操作。")将</

浏览 3提问于2022-03-30得票数 0

1回答

AccessControlException:当使用Hive仓库时，客户端无法通过：[令牌，KERBEROS]进行身份验证

、、、

，如您所见，该异常发生在CREATE DATABASE上。当我们删除.enableHiveSupport时，异常也会消失，因此它显然与对Hive的身份验证有关。不过，我们确实需要Hive仓库，因为我们需要从多个火花会话中访问表，因此它们需要持久化。我为我的用户创建了一个密钥选项卡，并指定了该文件，但这并没有帮助。 For HBase而不

浏览 87提问于2022-04-20得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将Parquet文件读入Pandas DataFrame？

使用Parquet文件格式为方案数据创建配置单元(0.10)表

如何使用DataprocHiveOperator从Hive作业输出日志中提取查询结果？

Hive如何存储数据(从HDFS加载)？

使用Python将多行插入到一个Hive表中

Hive:由Hue插入到表中产生的文件数与pyspark不同。

基于HDFS上618列的csv文件创建外部单元表的最佳实践是什么？

上传以制表符分隔的文件到bigtable

Hive，HDFS数据到本地系统并返回

直接从FTP下载公共数据到

我怎样才能用电火花显示蜂箱表？

如何使用Qubole Hive查询从亚马逊S3的gz文件中查询数据？

以很少的条件将数据从hive/impala表导出到文件

PySpark:将SchemaRDD映射为SchemaRDD

哪个数据库应该用来跟踪和归档通过PHP发送的电子邮件

如何除以星火DataFrame中列的和

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

如何在Azure Delta湖上创建外部表(类似于Hive)

AccessControlException:当使用Hive仓库时，客户端无法通过：[令牌，KERBEROS]进行身份验证

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐