我一直在尝试设置Spark (Scala)和Jupyternotebook。除非你想添加像数据库驱动程序这样的东西,特别是在我的例子中,这是一个复杂的JAR相互依赖的网络,我花了一天的时间来尝试正确的setup is easy。我也在本地安装了spark (Ubuntu18.04),也遇到了同样的问题,找到了/jar文件夹,然后找出了我需要哪些版本的驱动程序、库等来使用
我们在Openshift中使用Open Data Hub pods框架,其中我们有我们的jupyterhub和spark。 目标是使用spark读取一堆csv文件并将其加载到mysql中。我得到的错误是在这个踏步How to set up JDBC driver for MySQL in Jupyternotebook for pyspark?中提到的。一种解决方案是复制spark主节点中的jar文件。但是我不能以root用户的身份
如图所示,当我导入Spark包时,它给出了错误。请帮帮忙。当我将鼠标悬停在那里时,它显示"object apache is not a member of package org“。我搜索了这个错误,它显示spark jars没有被导入。所以,我也导入了"spark-assembly-1.4.1-hadoop2.2.0.jar“。但同样的error.Below是我真正想要运行的:
import org.apache.spark.SparkConf, SparkContext