腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Spark
中
增加
Presto
的
查询
执行时间
、
、
、
、
我目前正在使用
Spark
连接到
Presto
。我们
的
查询
在60m之后超时,为了
增加
查询
执行时间
,我在getDBProperties()
中
设置了如下query.max-execution-time参数 private def constructPrestoDataFrame://${jobConfig.getString("
presto
.host")}:8443/${jobConfig.g
浏览 114
提问于2020-07-26
得票数 1
3
回答
为什么
Presto
比
Spark
SQL快
、
为什么
Presto
比
Spark
SQL快? 此外,
Presto
和
Spark
SQL在计算架构和内存管理方面的区别是什么?
浏览 3
提问于2018-04-25
得票数 32
回答已采纳
3
回答
如何
增加
最大
查询
时间?
、
、
、
、
我运行了一个
查询
,该
查询
最终将返回大约1700万行,分块为50万行。: Query failed (#20171013_015410_01255_8pff8):显然,这样
的
查询
可能需要一些时间;我对此没有意见(分块意味着我不会打破任何RAM限制--事实上,我运行
的
文件输出显示了17M行
中
的
16M在崩溃前完成
的
查询
!)但是我看不出read_
浏览 3
提问于2017-10-13
得票数 1
回答已采纳
1
回答
Spark
Small ORC条纹
、
、
、
我们使用
Spark
来扁平化点击流数据,然后将其以ORC+zlib格式写入S3,我尝试过在
Spark
中
更改许多设置,但最终创建
的
ORC文件
的
条带大小仍然非常小(<2MB)之前,每个文件
的
大小为20MB,我现在使用coalesce创建大小为250-300MB
的
文件,但每个文件仍有200个条带,即每个条带小于2MB 通过将hive.exec.orc.default.stripe.size设置为67108864,尝
浏览 22
提问于2018-01-14
得票数 1
1
回答
PySpark & JDBC:我什么时候应该在JDBC中使用should?
、
、
、
我有一个HDFS数据湖,可以通过Hive和
Presto
、Impala和
Spark
(集群
中
的
)
查询
数据。可以在本地安装(例如,我
的
笔记本电脑),可以使用JDBC连接数据源(Hive或
Presto
),就像在中一样?因此,我可以使用PySpark
的
data
浏览 3
提问于2019-10-21
得票数 1
回答已采纳
1
回答
从
Spark
Scala连接
Presto
、
、
、
我是
spark
的
新手。我正在尝试使用
Spark
Scala连接到
presto
实例。对于
Presto
服务器,SSL是真的,我有一个
Presto
密钥库。我
的
问题是如
何在
连接字符串
中
传递此信息。下面是我
的
代码片段 val enrdata = sqlcontext.read.format("jdbc").option("url", "jdbc:
presto
:
浏览 58
提问于2020-12-11
得票数 1
回答已采纳
3
回答
如
何在
maven项目的同一个模块中使用com.fasterxml.jackson 2.8.1和2.6.5?
、
、
、
我有一个包含
Spark
2.1.0和
Presto
0.166
的
模块。
Spark
2.1.0需要com.faster.xml版本2.6.5,而
Presto
0.166严格要求2.8.1。如
何在
相同
的
pom.xml
中
解决问题,以便可以在相同
的
模块
中
运行它们?
浏览 1
提问于2017-06-02
得票数 2
1
回答
在ETL场景中使用
Presto
的
缺点是什么?
、
我读到过
Presto
用于即席
查询
,而Hive/
spark
更适合用于ETL场景
的
apt。在ETL
中
不使用
Presto
的
原因似乎是因为
Presto
查询
可能会失败,并且没有中间
查询
容错。然而,看起来我们可以通过在我们
的
日常Jenkins工作流程中使用
Presto
以及在
查询
失败
的
情况下重试来绕过它。有没有人尝试过使用这种方法,或者他们对这种方法
浏览 0
提问于2018-07-31
得票数 5
2
回答
为什么在
spark
.jdbc
中
需要dbtable / query
、
、
我是一个
SPARK
新手,我不清楚为什么dbtable或query需要作为JDBC选项
的
一部分。例如,与
Presto
JDBC驱动程序一起使用时,
Presto
驱动程序不喜欢url、driver、dbtable和query参数。其他驱动程序执行类似的验证(例如,用于
Presto
的
CData驱动程序) url = "jdbc:
presto
:Server=spill.asifkazi.cp.ahana.cloud;Port=443(BasicConnectionPro
浏览 4
提问于2021-05-15
得票数 0
2
回答
在VM集群上安装
Presto
并将其连接到不同Yarn集群上
的
HDFS
、
、
、
、
我们希望安装将
查询
集群
的
HDFS
的
presto
,但是由于工作机器
中
缺少CPU资源(每台机器只有32个核心),计划将
presto
安装到集群之外。为此,我们有几个ESX,每个ESX将有2个VM,每个VM将运行一个
presto
服务器。 所有ESX机器将通过10g网卡连接到星火集群,因此这两个集群将位于同一个网络
中
。我
的
问题是-我们可以在VM集群上安装
presto
吗?尽管HDFS不是在ESX集群上(而是在
spark<
浏览 4
提问于2019-04-15
得票数 4
回答已采纳
1
回答
不在
Presto
v.s
Spark
SQL
的
实现
中
、
、
、
我得到了一个非常简单
的
查询
,当在相同
的
硬件上运行
Spark
SQL和
Presto
(3小时v.s 3分钟)时,显示出显着
的
性能差异。在NOT EXISTS
的
查询
计划
中
,我可以看到连接谓词是Left AntiJoin(test1=test2),这使得NOT EXISTS
的
物理连接操作符更好(完成操作需要5分钟)。所以我检查了一下
Presto
的
查询
计划,它并没有真正提
浏览 13
提问于2019-11-07
得票数 6
回答已采纳
1
回答
在数百万块文件上运行交互式sql
查询
、
、
、
、
我有数以百万计
的
流媒体拼花文件正在编写
中
。为了调试和分析目的,我想支持运行临时交互
查询
(如果我也可以运行流
查询
来实时监视关键指标)。什么是可扩展
的
解决方案来支持这一点。我观察到
的
两种方法是在数百万个parquet文件上交互地运行
spark
(不太熟悉
spark
生态系统,但这是否意味着为每个sql用户提交
的
文件运行
spark
作业,还是需要运行一些流作业并以某种方式提交
查询
)和第二种方式是在parque
浏览 0
提问于2018-01-19
得票数 0
3
回答
Presto
和Hive
、
我正在尝试启用位于s3目录
中
的
CSV文件
的
基本SQL
查询
。
Presto
看起来很适合(文件是10s GB)。当我在
Presto
中进行设置时,我尝试使用Hive连接器创建一个表。我不清楚是只需要hive metastore来保存我在
Presto
中
的
表配置,还是必须先在那里创建它们。 文档表明,您可以使用
Presto
,而不必配置Hive,但使用Hive语法。这是准确
的
吗?我
的
经验是,亚马
浏览 21
提问于2017-02-11
得票数 3
0
回答
对在配置单元
中
以orc格式创建且数据驻留在s3
中
的
表执行
presto
-cli
查询
失败
、
、
我设置了一个Amazon EMR实例,它包含1个主和1个核心(m4 Large),具有以下版本详细信息: EMR : 5.5.0
Presto
:
Presto
0.170 Hadoop2.7.3 HDFSHive 2.1.1元存储区 我
的
Spark
应用程序将ORC
中
的
数据写到了亚马逊S3。然后,我在配置单元(create external table TABLE ... partition() stored as ORC location 's3a"/
浏览 7
提问于2017-06-15
得票数 1
回答已采纳
1
回答
Presto
失败: com.facebook.
presto
.spi.type.VarcharType
、
我创建了一个包含三列( id、name、position )
的
表,然后使用
spark
使用orc格式将数据存储到s3
中
。Query 20180919_151814_00019_33f5d failed: com.facebook.
presto
.spi.type.VarcharType
浏览 1
提问于2018-09-20
得票数 7
回答已采纳
1
回答
相同数据上
的
SQL和MongoDB
查询
执行时间
不会产生预期
的
结果
、
、
、
这是一个一般性
的
问题,但我希望有人能回答。我正在比较MongoDB和
Spark
之间
的
查询
执行时间
。具体来说,我从一个MongoDB文件
中
创建了一个由100万条条目组成
的
.csv集合,并使用Compass
中
的
mongosh运行了一些
查询
。然后,使用
Spark
和
Spark
连接器,我将这个数据库从MongoDB插入到
Spark
中
,作为一个RDD。之后,
浏览 7
提问于2022-01-04
得票数 -1
回答已采纳
1
回答
Spark
结构化流运行过程
中
Presto
的
"not a Parquet file (太小)“
、
、
、
、
我有一个管道设置,从Kafka读取数据,使用
Spark
结构化流处理数据,然后将拼花文件写入HDFS。数据
查询
的
下游客户端使用
Presto
配置,以便将数据作为Hive表读取。Kafka -->
Spark
--> Parquet on HDFS -->
Presto
一般来说,这是可行
的
。当
Spark
作业运行批处理时发生
查询
时,就会出现问题。如果
Presto
试图在处理
查询
过程
浏览 3
提问于2017-11-16
得票数 1
回答已采纳
5
回答
以s3为数据
的
亚马逊网络服务
中
的
ETL流水线如何处理增量更新
、
、
、
、
我已经在AWS
中
设置了ETL管道,如下所示我
的
问题是,假设上面是数据
的
初始加载,我如何设置来运行每天(或每小时)来添加新行或更新现有记录
的
增量批处理b.)如何处理重复记录获取
浏览 0
提问于2017-09-06
得票数 4
1
回答
Spark
/SQL2.4校验和()、md5等
、
、
AWS 雅典娜/
Presto
中
工作,并为一组行生成一个校验和,以便我能够确定是否有任何数据已经更改,或者将一个表
中
的
一组行与另一个表
中
的
一组行进行比较,以实现行集相等/不平等。在
Spark
中
运行相同
的
语句会产生错误,因为内置函数不存在,至少不使用与
Presto
中
相同
的
名称。 我查看了
Spark
/SQL函数
的
列表,没
浏览 3
提问于2019-03-21
得票数 7
1
回答
spark
.sql()和
spark
.read.format("jdbc").option("query“、"")之间有什么区别?
、
、
、
我假设
spark
.sql(
查询
)是在使用
spark
.sql时使用
的
,而
spark
.read.format("jdbc").option("query“、"")则是在使用oracle语法时使用
的
。我这样假设是对
的
吗?
浏览 3
提问于2021-08-16
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
如何在本地保存快递查询软件中的物流信息
DBeaver:实现多数据库连接与数据分析的全能助手
Presto在滴滴的探索与实践
6个人如何维护上千规模的大数据集群?
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券