腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2443)
视频
沙龙
1
回答
如
何在
pyspark
中
高效
地
将
大型
.
tsv
文件
上
传到
拆
分列
的
Hive
表
中
?
、
、
我有一个很大(大约1000万行)
的
.
tsv
文件
,其中有两列:'id‘和'group’。‘'Group’列实际
上
是某个id所属
的
所有组
的
列表,所以
文件
看起来像这样:id2 group2,group3,group4 id3 group1我需要使用
pyspark
将其上
传到
Hive
表
,但是我希望拆分group列,以便
浏览 3
提问于2019-08-08
得票数 2
回答已采纳
7
回答
如何
将
Parquet
文件
读入Pandas DataFrame?
、
、
、
、
如
何在
不设置集群计算基础设施(
如
Hadoop或Spark )
的
情况下,
将
适度大小
的
Parquet数据集读入内存
中
的
Pandas DataFrame?这只是我想在内存
中
阅读
的
少量数据--在笔记本电脑
上
使用一个简单
的
Python脚本。数据不驻留在HDFS
上
。它要么在本地
文件
系统
上
,要么在S3
中
。我不想分
拆
和配置其他
浏览 22
提问于2015-11-19
得票数 146
回答已采纳
1
回答
使用Parquet
文件
格式为方案数据创建配置单元(0.10)
表
、
、
、
、
我有一个3级嵌套
的
java类形式
的
数据。我成功
地
使用avro Tools ReflectData创建了Avro schema,并使用ReflectDatumWriter
将
数据写出avro
文件
。在
Hive
中
,我能够创建一个
表
,并使用 ('avro.schema.url'='hdfs:///schema.avsc'); 我可以看到有一些方法可以将相同<e
浏览 1
提问于2014-10-15
得票数 0
2
回答
如何使用DataprocHiveOperator从
Hive
作业输出日志中提取查询结果?
、
、
、
、
我试图使用气流构建数据迁移管道,源是Dataproc集群
上
的
Hive
表
,目标是BigQuery。我使用DataprocHiveOperator从源获取模式和数据。这个操作符在内部使用Dataproc REST来提交和执行我们指定
的
Dataproc集群
上
的
作业。输出将作为作业日志
的
一部分写入到
文件
中
。我只需要这些日志
的
查询结果。到目前为止,我已经修改了driverOutputResourceUri代码
浏览 0
提问于2019-09-03
得票数 3
回答已采纳
5
回答
Hive
如何存储数据(从HDFS加载)?
、
、
、
、
我对Hadoop组件(
如
NamedNode、DataNode、Job、Tracker )有很好
的
理解,以及它们如何协同工作,以
高效
的
方式存储数据。在试图理解数据访问层(
如
Hive
)
的
基本原理时,我需要了解表
的
数据(在
Hive
中
创建)究竟存储在哪里?我们可以在
Hive
中
创建外部和内部
表
。由于外部
表
可以在HDFS或任何其他
文件
系统
浏览 11
提问于2015-10-28
得票数 4
1
回答
使用Python
将
多行插入到一个
Hive
表
中
、
Hive
是一个数据仓库,用于查询和聚合驻留在HDFS
上
的
大型
数据集。 尽管如此,现在有了一个用于
Hive
/ HCatalog
的
流API,
如
详细
浏览 4
提问于2015-11-30
得票数 4
1
回答
Hive
:由Hue插入到
表
中产生
的
文件
数与
pyspark
不同。
、
、
、
、
我有一个Cloudera集群,在这个集群
上
,我
将
大量数据存储在一个作为Parquet存储
的
Hive
表
中
。该
表
由整数batch_id进行分区。我插入一批新行
的
工作流程是首先将行插入到暂存
表
中
,然后插入到
大型
累积
表
中
。我正在使用一个本地模式
的
脚本来完成这个任务。该脚本实质
上
是: sc =
pyspark
.Spark
浏览 2
提问于2018-02-27
得票数 0
1
回答
基于HDFS
上
618列
的
csv
文件
创建外部单元
表
的
最佳实践是什么?
、
、
由于数据
的
大小,这个问题与我在堆栈溢出上发现
的
不同,它是不重复
的
。 基于该位置创建外部Impala
表
的
最佳方法是什么?如果我需要
浏览 0
提问于2018-07-23
得票数 0
1
回答
上传以制表符分隔
的
文件
到bigtable
、
、
我正在运行有10个节点
的
cassandra集群,每天上传巨大
的
tsvtab分离值
文件
,现在我想将我
的
项目转移到google bigtable
中
,以获得更好
的
性能和更低
的
延迟。我安装了google cloud big table 3节点集群,在云计算服务器1节点
上
安装了hbase插件,现在不知道如何开始
将
这些
tsv
文件
上
传到
bigtable
中
。下面是我
的</
浏览 0
提问于2016-04-12
得票数 0
2
回答
Hive
,HDFS数据到本地系统并返回
、
、
、
我是Hadoop政府
的
新手:) 我有一个由8个节点组成
的
ApacheHadoop2.4.1集群,使用了16 nodes (无法在任何xml
文件
中找到复制因子),
Hive
0.13具有MySQL转移。目标:
将
集群
上
的
数据备份到NFS驱动器,卸载集群,安装其他发行版(Cloudera,Hortonworks),并将数据从NFS驱动器重新加载到这个新集群。有两个956 of
的
Hive
表
(大约90亿行)和32GB
的</
浏览 4
提问于2015-02-05
得票数 1
1
回答
直接从FTP下载公共数据到
、
我需要处理一些
大型
的
可公开获取
的
大型
基因组
文件
,并希望将它们存储在Google
上
。直接下载它们是有意义
的
,而且我能找到
的
最相似的事情就是设置一个数据传输。数据传输需要一个具有链接、大小和MD5
的
TSV
文件
的
URL。 在没有提供远程对象
的
情况下,您如何找到MD5?这有可能吗?我不知道为什么有必要在一个网址<em
浏览 0
提问于2019-06-17
得票数 0
3
回答
我怎样才能用电火花显示蜂箱
表
?
、
、
、
、
你好,我在蔚蓝
上
创建了一个星星之花高清洞察力集群,我试着用
pyspark
读取蜂窝
表
,但是它只显示默认数据库
的
问题 有人有主意吗?
浏览 8
提问于2022-02-23
得票数 1
1
回答
如何使用Qubole
Hive
查询从亚马逊S3
的
gz
文件
中
查询数据?
、
、
、
我需要从gz那里得到具体
的
数据。如何编写sql?我可以用sql作为
表
数据库吗?
浏览 1
提问于2017-03-22
得票数 0
回答已采纳
2
回答
以很少
的
条件
将
数据从
hive
/impala
表
导出到
文件
、
、
如何有效
地
将带有条件
的
hive
/impala
表
中
的
数据导出到
文件
中
(数据将是巨大
的
,接近10 GB)?
hive
表
的
格式是paraquet,压缩了snappy,
文件
是csv。该
表
每天进行分区,数据需要每天提取,我想知道是否impala-shell -k -i服务器名:portname -B -q 's
浏览 2
提问于2016-08-08
得票数 0
回答已采纳
4
回答
PySpark
:
将
SchemaRDD映射为SchemaRDD
、
、
、
、
我正在以
PySpark
SchemaRDD
的
形式加载JSON对象
的
文件
。我想改变对象
的
“形状”(基本
上
,我是在使它们变平),然后插入到一个
Hive
表
中
。我遇到
的
问题是,以下内容返回
的
是PipelinedRDD而不是SchemaRDD(其中log_json是SchemaRDD)。是否有一种方法来保留类型,
将
类型转换回所需
浏览 5
提问于2015-07-20
得票数 1
回答已采纳
3
回答
哪个数据库应该用来跟踪和归档通过PHP发送
的
电子邮件
、
、
、
、
我们托管了大量静态
文件
供公众下载。PDF,Zips,图片,人们每天下载数千。我们跟踪MySQL数据库
中
的
计数器,在MongoDB中跟踪详细信息(如下载来自何处和何时)。我们
的
应用程序倾向于每月发送数十万封电子邮件,其中许多是时事通讯、通知和项目邀请函。这些发送
的
电子邮件被保存到MySQL数据库
中
,它们
的
关键数据被序列化(从来没有正文或实际
的
电子邮件内容,只有标题、收件人、发送时间等)。 MySQL是这方面的好选择吗?蒙戈是吗?现在,我们
浏览 11
提问于2012-02-23
得票数 5
回答已采纳
1
回答
如何除以星火DataFrame
中
列
的
和
、
、
如
何在
不立即触发计算
的
情况下,
高效
地
将
列除以其在星火DataFrame
中
的
自身和?假设我们有一些数据:from
pyspark
.sql import SparkSession, Windoww = Window.rowsBetween(Window
浏览 0
提问于2018-01-31
得票数 2
回答已采纳
1
回答
在通过hdfs连接器从kafka写入时,是否有一种限制avro
文件
大小
的
方法?
、
、
、
目前,我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold,
将
写入HDFS
上
avro/json
文件
的
数据大小限制在128 on。在检查点操作延迟一定时间后也关闭
文件
。由于我们在新项目中没有使用高级Flink特性,所以我们希望使用Kafka Connect HDFS Connector
中
的
Kafka流直接
将
消息写入hdfs (而不是旋转Flink)。但是,我无法找到限制卡夫卡连接器
中<
浏览 0
提问于2018-08-08
得票数 1
回答已采纳
1
回答
如
何在
Azure Delta湖上创建外部
表
(类似于
Hive
)
、
、
如
何在
Azure数据湖存储
上
创建外部Delta
表
?我目前正在从事一个迁移项目(从
Pyspark
/Hadoop到Azure)。我找不到很多关于在Azure
中
创建非托管
表
的
文档。下面是我目前能够在
Pyspark
/
Hive
/HDFS设置
中
执行
的
一系列操作,不知道如
何在
Azure
上
建立相同
的
操作。")
将</
浏览 3
提问于2022-03-30
得票数 0
1
回答
AccessControlException:当使用
Hive
仓库时,客户端无法通过:[令牌,KERBEROS]进行身份验证
、
、
、
,
如
您所见,该异常发生在CREATE DATABASE
上
。当我们删除.enableHiveSupport时,异常也会消失,因此它显然与对
Hive
的
身份验证有关。不过,我们确实需要
Hive
仓库,因为我们需要从多个火花会话
中
访问
表
,因此它们需要持久化。我为我
的
用户创建了一个密钥选项卡,并指定了该
文件
,但这并没有帮助。 For HBase而不
浏览 87
提问于2022-04-20
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【大数据】Hive 分区和分桶的区别及示例讲解
基于Azure 数据湖分析与U-SQL实现大数据查询处理
一文读懂PySpark数据框
企业大数据平台MapReduce应用之Join实践!
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券