首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark | Spark SQL参数

欢迎您关注《大数据成神之路》 前言 Spark SQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在spark-sql中使用set -v 命令显示当前spark-sql...版本支持的参数。...本文讲解最近关于在参与hive往spark迁移过程中遇到的一些参数相关问题的。 内容分为两部分,第一部分讲遇到异常,从而需要通过设置参数来解决的;第二部分讲用于提升性能而进行的。...异常 spark.sql.hive.convertMetastoreParquet parquet是一种列式存储格式,可以用于spark-sql 和hive 的存储格式。...性能 除了遇到异常需要被动调整参数之外,我们还可以主动调整参数从而对性能进行

7.4K63
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    RabbitMQ——参数

    【前言】 前面几篇文章讲述了rabbitmq消息存储的相关原理,也提到了有些参数可以进行配置。这些配置参数的微调在不同的场景中会有不同的效果。...本文对其中一些参数进行说明,同时以实测数据结合性能分析工具进行剖析。 【相关参数说明】 queue_index_embed_msgs_below 控制消息的存储位置。...【参数】 queue_index_max_journal_entries 先来看一组测试数据 测试场景是这样的: 16个生产者分别向64个持久化队列不间断发送消息,队列设置为lazy模式;每条消息大小为...【总结】 本文总结了几个相关的参数,也在特定场景下对其进行了测试说明。...此外,erlang层面还会有一些参数可以微调,因此不同场景下还需要结合实际需要进行参数

    1.6K30

    Hbase参数

    本教程以hadoop 为例,根据自己的实际情况调整ulimit 限制 liunx 内核网络参数调整 在linux 中所有的TCP/IP 参数都位于/proc/sys/net 目录下(请注意,对/proc.../sys/net 目录下内容的修改都是临 时的,任何修改在系统重启后都会丢失),例如下面这些重要的参数: /etc/sysctl.conf 是一个允许你改变正在运行中的Linux 系统的接口。...它包含一些TCP/IP 堆栈和虚拟内存系统 的高级选项,可用来控制Linux 网络配置,由于/proc/sys/net 目录内容的临时性,建议把TCPIP 参数的修改添加 到/etc/sysctl.conf...文件, 然后保存文件,使用命令“/sbin/sysctl –p”使之立即生效,样例参数 net.core.rmem_default = 256960 net.core.rmem_max = 513920...image.png Hbase 参数优化 RPC 参数优化 hbase.regionserver.handler.count RPC 处理线程数 默认值为30 Memstore 参数优化 image.png

    2.2K101

    Hive参数

    开启MapJoin参数设置:   (1)设置自动选择Mapjoin set hive.auto.convert.join = true; 默认为true   (2)大表小表的阀值设置(默认25M一下认为是小表...开启动态分区参数设置   (1)开启动态分区功能(默认true,开启) hive.exec.dynamic.partition=true   (2)设置为非严格模式(动态分区的模式,默认strict,...该参数需要根据实际的数据来设定。比如:源数据中包含了一年的数据,即day字段有365个值,那么该参数就需要设置成大于365,如果使用默认值100,则会报错。...mapred.map.tasks.speculative.execution=false;   SET mapred.reduce.tasks.speculative.execution=false; 九、Hive配置项合集...join的map数控制,默认是10000; hive.skewjoin.mapjoin.min.split 数据倾斜join时map join的map任务的最小split大小,默认是33554432,该参数要结合上面的参数共同使用来进行细粒度的控制

    1.5K30

    内核 TCP 参数

    这时可优化TCP内核参数,及时将TIME_WAIT状态的端口清理掉。 下面方法只对大量 TIME_WAIT 状态的连接导致系统资源消耗有效,如不是这种情况,效果可能不明显。...这时,有必要调整下Linux的TCP内核参数,让系统更快的释放TIME_WAIT连接。...输入下面的命令,让内核参数生效: sysctl -p 经过这样调整后,除进一步提升服务器的负载能力外,还能防御小流量程度的DoS、CC和SYN攻击。...此项参数可控制TIME_WAIT 最大数量。 这几个参数,建议在流量非常大的服务器上开启,会有显著效果。一般的流量小的服务器上,没必要去设这几个参数。...内核其他TCP参数说明: net.ipv4.tcp_max_syn_backlog= 65536 #记录尚未收到客户端确认信息的连接请求的最大值。

    1.4K10

    JVM参数

    基本概念 在调整JVM性能时,通常有三个组件需要考虑: 堆大小调整 垃圾收集器调整 JIT编译器 大多数优选项都与调整堆大小和选择合适的垃圾收集器有关,JIT编译器对性能也有很大影响,但很少需要对其进行...垃圾收集器Parallel参数 Parallel垃圾收集器在JDK8中是JVM默认的垃圾收集器,它是以吞吐量优先的垃圾收集器。其可调节的参数如下: ?...垃圾收集器CMS参数 CMS垃圾收集器是一个响应时间优先的垃圾收集器,Parallel收集器无法满足应用程序延迟要求时再考虑使用CMS垃圾收集器,从JDK9开始CMS收集器已不建议使用,默认用的是G1...垃圾收集器G1参数 G1收集器是一个兼顾吞吐量和响应时间的收集器,如果是大堆(如堆的大小超过6GB),堆的使用率超过50%,GC延迟要求稳定且可预测的低于0.5秒,建议使用G1收集器。 ?...GC之前,我们需要了解当前JVM参数的信息。

    1.2K10

    JVM参数解析

    JVM参数说明 Xms 是指设定程序启动时占用内存大小。一般来讲,大点,程序会启动的快一点,但是也可能会导致机器暂时间变慢 Xmx 是指设定程序运行期间最大可占用的内存大小。...默认情况下,JDK5.0以前都是使用串行收集器,如果想使用其他收集器需要在启动时加入相应参数。...可能会影响性能,但是可以消除碎片 3、辅助信息 JVM提供了大量命令行参数,打印信息,供调试使用。...总结 年轻代大小的选择 1、响应时间优先的应用 :尽可能设大,直到接近系统的最低响应时间限制 (根据实际情况选择)。在此种情况下,年轻代收集发生的频率也是最小的。同时,减少到达年老代的对象。...因为对响应时间没有要求,垃圾收集可以并行进行,一般适合8CPU以上的应用 年老代大小的选择 1、响应时间优先的应用 :年老代使用并发收集器,所以其大小需要小心设置,一般要考虑并发会话率 和会话持续时间 等一些参数

    93430

    JVM常用参数

    内存 设置heap大小 这个非常重要,通常只要这里设置够了,就不会出现溢出。...如果物理内存为32G(一般为物理内存的90%,也就是27~28G) 新生代和老年代的大小 这个参数相当于设置等值的最小、最大新生代,NewRatio这个设置新、老代比例,NewRatio=1代表,两个相等大小...Xmn1g 这个值如果不设的话,默认只有6M 设置持久代大小 同理,这两个值应该是一样的(jdk7) -XX:PermSize=512m -XX:MaxPermSize=512m JDK8起用这两个参数...设置code cache -XX:ReservedCodeCacheSize=1024m -XX:+UseCompressedOops 设置字符串压缩 -XX:-CompactStrings GC...比如2颗6核超线程(超线程后1个核相当于2个线程)就是24/4=6,置ParallelGCThreads时最大不要超过6就行了。

    1.4K21

    JVM参数

    一起说说JVM参数,之前JDK的命令工具也说过,今天一起搞个程序试一把看看如何,从哪些方面来。...[1240] (一)的基本概念 ① 介绍切记:JVM没有什么必要,不要瞎搞,这是很忌讳的事情,毕竟JVM是个很成熟的产品。...jmap -heap 19587 [1240] 如何去呢?的思路是什么? ④ GC 思路 1.分析场景例如:启动速度慢;偶尔出现响应慢于平均水平或者出现卡顿。...本质上调就是不断的调整下的小参数,让我们程序更加平稳。...,太心累了,一个参数一个试穷举法,非java范畴,永远都是慢悠悠的,很多时候发现跟谈恋爱一样,初恋可能是最美好的,最可悲的是可能还没开始恋爱,都30多岁到了单身汉的年龄。

    95220

    spark shuffle参数

    spark shuffle参数  spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream...建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如96m),从而减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。...建议:在资源参数中讲解过这个参数。如果内存充足,而且很少使用持久化操作,建议调高这个比例,给shuffle read的聚合操作更多内存,以避免由于内存不足导致聚合过程中频繁读写磁盘。...,那么建议参考后面的几个参数,通过bypass机制或优化的HashShuffleManager来避免排序操作,同时提供较好的磁盘读写性能。...建议:当你使用SortShuffleManager时,如果的确不需要排序操作,那么建议将这个参数大一些,大于shuffle read task的数量。

    1.1K20
    领券