首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Spark任务两个小问题笔记

    今天在用spark处理数据的时候,遇到两个小问题,特此笔记一下。 两个问题都与网络交互有关,大致处理场景是,在driver端会提前获取组装一批数据,然后把这些数据发送executor端进行后续处理。...问题一:序列化异常 driver有一个case class类需要封装一些数据发送到executor上,原来都是scala的类,直接发送到executor上执行没问题,而且也没加序列化的注解,原因是因为scala...会自动给函数方法序列化,因为这个类出现在函数中,所以也没事,但今天在这个类里面又加了一个java的bean,结果就出现了异常: 原因是新加的java bean没有序列化,所以导致了这个问题,scala的函数序列化可能并不是深度序列化...,不会对类属性里面的类再次进行序列化,所以解决办法就是让这个java bean实现java的序列化接口: 问题二:driver端发送的数据太大导致超过spark默认的传输限制 异常如下: 从上面的异常提示...如何解决: 方法一:使用广播变量传输 方法二:调大spark.rpc.message.maxSize的值,默认是128M,我们可以根据需要进行适当调整 在使用spark-submit提交任务的时候,加上配置即可

    58470

    Hive问题之UDF语义错误10014 原

    问题描述 使用Hive处理数据的时候,写了一个UDF,然后上传到服务器,添加到Hive中之后,一直报如下的错误: FAILED: SemanticException [Error 10014]: Line...Possible choices: 解决思路 语义错误,错误码10014,我只在网上看到一个这个问题的提问,没有人回答,而且他的错误一眼就看出来了, UDF没有使用规定的方法名称,看到这里,我立刻检查我的方法名称...,代码片段如下: import org.apache.hadoop.hive.ql.exec.UDF; public class Distance extends UDF { /** * 两个经纬度点之间的距离计算...解决方法 将方法名称修改完成,然后删除Hive中已经注册的方法,退出Hive Shell界面,重新进入Hive Shell,再进行UDF注册的步骤。即可解决!...UDF注册参见:HIVE的UDF以及JDBC编程 总结 自古写代码字母写错了是最难检查的问题,所以写的时候一定要认真!这是一个很怎么说呢?很“高级”的错误!

    4K30

    2021年大数据Spark(三十):SparkSQL自定义UDF函数

    ---- 自定义UDF函数      无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在org.apache.spark.sql.functions...SparkSQL与Hive一样支持定义函数:UDF和UDAF,尤其是UDF函数在实际项目中使用最为广泛。...|     | hehe|     | xixi|     +-----+      */     //3.使用自定义函数将单词转为大写     //SQL风格-自定义函数     //spark.udf.register...("函数名",函数实现)     spark.udf.register("small2big", (value: String) => value.toUpperCase())     df.createOrReplaceTempView...)     import org.apache.spark.sql.functions._     val small2big2: UserDefinedFunction = udf((value: String

    2.3K20

    取组合数问题

    思路: 这是一个数学上的组合数问题。网上有一些算法可以求出组合数的数量,但现在需要把每一个组合数取出来。...首先考虑到必须得用到递归,具体如何取能防止出现重复组合,就比较巧妙了,如果用判断重复不仅low,而且会有非常繁重的计算量,最好就是循环的时候能避开重复组合的问题。...小学里面学过如何数线段个数,或者某种三角形的个数,老师会使用一种方法,比如以第一个端点为准,找到所有线段,再以第二个端点开始找,并且不回头找,因为会重复,这就是典型的组合数,只是N取2的组合。...受此启发,可以设计出递归的寻找M取N个组合数。...然后我们递归找到取n-1的所有组合,再把当前元素结合进去就可以了。

    22510
    领券