在sbt中设置当前项目- spark生成问题 - 腾讯云开发者社区

5322 0

Spark 开发环境搭建

3.2 安装在 hadoop 官网下载最新版本 hadoop 软件 , 当前是 2.8.0), 直接解压即可安装，本例中安装目录为 ~/hadoop; 安装后 hadoop 目录结构如下： ~/hadoop...语句生成了一个 sbt 工程对象，之后调用其 settings() 函数，设置工程属性。使用程序语言定义工程会非常简洁灵活，具备非常好的可扩展性。...重要： scalaVersion 必须与当前 spark 使用的 scala 版本一致，否则生成的 jar 包不一定能在 spark 环境中运行，这个版本可以通过查看 $spark_root/jars/...5、编译与打包 sbt package 执行上述命令，完成编译打包，生成 jar 文件，到这里，第一个独立打包的 spark app 已孵出了。...需要了解更多 sbt 工具使用问题：依赖管理、多模块定义、插件扩展等。

6.9K2 1

您找到你想要的搜索结果了吗？

是的

没有找到

Spark的那些外部框架

sbt插件sbt-spark-package（https://github.com/databricks/sbt-spark-packages）对于生成package也非常有用。...如果要在你的项目中包含此插件，请务必在sbt项目的project/plugins.sbt文件中写入下面的代码： resolvers += "bintray-Spark-packages" at "https...顾名思义，在DMLC项目下有许多机器学习库，它们在Hadoop和Spark等已有资源上具有高扩展性。XGBoost是基于Gradient Boosting（梯度提升）算法的。...在spark-jobserver项目目录下有一个著名的单词计数例子。下载这个例子的源码后，用sbt命令编译。如果你的笔记本上没有sbt，请参照http://www.scala-sbt.org/。...虽然这个库仍然在开发中，但由于它是一个开源项目，因此可能很快就会被应用到实际场景。如果你打算在内部使用以处理日常数据，那么spark-jobserver是一个不错的选项。

1.3K1 0

基于spark源码做单元测试

简单调整一下 SBT 的 prompt string，以便显示当前的 project 名称: vim ~/.sbt/0.13/global.sbt ##文件不存在就创建添加如下内容： ?...使用sbt运行测试案例在core模块中 DAGSchedulerSuite.scala "SPARK-3353" 案例中加入一行打印： ?...在sbt命令中输入： sbt (core)> set javaOptions in Test += "-agentlib:jdwp=transport=dt_socket,server=n,suspend...=n,address=localhost:5005" sbt (core)> testOnly *DAGSchedulerSuite -- -z "SPARK-3353" 可以看到sbt在断点处等待：...编写测试用例 Spark为了确保代码风格一致规范，在项目引入了scala-style checker（比如每个代码文件头部需要定义Apache的License注释；import的顺序等），如果代码不合规范

1.9K4 0

在idea中如何设置项目编码为UTF-8？

idea中的默认编码为GBK，在开发过程中一般将编码格式改为UTF-8。首先进入idea，左上方点击File。...然后选择Settings，点击Editor------>File Encodings ps:将全局编码、项目编码以及配置文件编码都设为UTF-8

4K2 0

Spark Streaming 项目实战(1) | 生成随机数据并写入到Kafka中

本实战项目使用 Structured Streaming 来实时的分析处理用户对广告点击的行为数据. 一. 数据生成方式使用代码的方式持续的生成数据, 然后写入到 kafka 中. ...数据生成模块模拟出来的数据格式: 时间戳,地区,城市,用户 id,广告 id 1566035129449,华南,深圳,101,2 1....创建 Topic 在 kafka 中创建topic: ads_log0814 [bigdata@hadoop002 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server...产生循环不断的数据到指定的 topic 创建模块spark-realtime模块 1....先看一下随机生成的数据 // 这时候需要注释MockRealtimeData中的这两行代码 ? ? 4. 确认 kafka 中数据是否生成成功 ? 本次的分享就到这里了

2.9K2 1

傻白甜，约不约？

而且 Sbt 默认会从一些奇奇怪怪的地方下载依赖，相信大家的第一次，都不会很美好（ Sbt 的项目构建异常缓慢，而且还经常会失败），笔者也不例外，所以有了这篇文章，希望对你有些帮助。...=true ，也可以通过设置环境变量 SBT_OPTS="-Dsbt.override.build.repos=true" 实现。...这里需要说明，如果需要指定自己的 sbt ，并不能像其他软件，设置倒跟目录就行，这里需要指定倒 bin 目录下的 sbt-launch.jar 编译一下，会发现舒爽很多了。...sbt 项目依赖在使用 scala 的时候，大家一定要注意自己的sdk版本以及配置的依赖包的版本要一致，如果不符，就会出现各种奇怪的问题 libraryDependencies += "org.apache.spark...它提供了一套容错机制，允许在Actor出现异常时进行一些恢复或重置操作。 Akka既可以在单机上构建高并发程序，也可以在网络中构建分布式程序，并提供位置透明的Actor定位服务。

8243 0

30分钟--Spark快速入门指南

此外，接下来教程中出现的命令、目录，若无说明，则一般以 Spark 的安装目录（/usr/local/spark）为当前路径，请注意区分。在 ....在 Spark 程序中可以使用 SQL 查询语句或 DataFrame API。...Shell 命令接着在 /usr/local/sbt 中创建 sbt 脚本（vim ./sbt），添加如下内容： #!.../sbt sbt-version，只要能得到如下图的版本信息就没问题： ?...通过 spark-submit 运行程序最后，我们就可以将生成的 jar 包通过 spark-submit 提交到 Spark 中运行了，命令如下： /usr/local/spark/bin/spark-submit

3.6K9 0

使用SBT正确构建IndexedRDD环境

由于其并没有合并到 Spark 的主项目分支，所以在使用时需要引入特别的对其的支持。...开始引入 IndexedRDD 参见 Github 的说明，在 build.sbt 中添加： //这句很关键 resolvers += "Spark Packages Repo" at "http://...2.1.0）上述版本是 spark-rdd 代码库中 build.sbt 的版本，详见 Github-spark-indexedrdd 明确 spark-indexedrdd 版本注意，maven...2）但是这并不是Flink推荐我们去做的，推荐的做法是在代码中引入一下包： import org.apache.flink.streaming.api.scala._ 如果数据是有限的（静态数据集）...才出现的这个错误，在改用 Sbt 单一管理依赖后该错误也没有复现。

1K3 0

Spark历险记之编译和远程任务提交

Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了Spark SQL...从各方面报道来看Spark抱负并非池鱼，而是希望替代Hadoop在大数据中的地位，成为大数据处理的主流标准，不过Spark还没有太多大项目的检验，离这个目标还有很大路要走。...在大版本2.10.x范围内一致，否则在某些情况下可能会出现莫名其妙的问题。...sbt，专门针对scala项目的进行构建打包的好吧，也许你需要一个demo来帮助你理解？...在IDEA中，创建一个Scala的SBT项目：然后在build.sbt文件中，加入如下依赖： Java代码 name := "spark2117" version := "1.0"

2K9 0

Spark Submit的ClassPath问题

在我们的Scala项目中，可以直接将要依赖的jar包放在module的lib文件夹下，在使用sbt执行编译和打包任务时，会自动将lib下的jar包放入classpath中。...那么，需要解决的第一个问题是：由于客户的jar包不能拷贝到我的开发环境中，该如何处理该依赖？既然在开发环境下拿不到这个jar包，那就做一个mock包吧。...实际上，sbt assembly并不会将所有依赖的外部包都装配到最终的部署包中，只要在sbt的依赖中添加provided，就能保证第三方依赖包不被包含进部署包中。...方法是在build.sbt中添加如下脚本： excludedJars in assembly := { val cp = (fullClasspath in assembly).value cp...这就是在本地设置classpath不生效的根本原因。

4.3K9 0

【腾讯云的1001种玩法】Ubuntu 14.04 Spark单机环境搭建与初步学习

可以通过如下步骤设置国内的sbt源： #vim ~/.sbt/repositories 在里面输入如下内容： [repositories] local oschina:http...如果已经将 Spark 的 bin 目录加入到了系统路径，那么在系统命令行里输入 spark-shell 就可以进入 Spark 的交互式终端了。...接下来的 cache() 方法是 Spark 非常独到的一个操作，它是为了告诉 Spark，只要内存足够（限额可以通过 Spark 中的配置文件设置），就将数据放到内存里，以加快后续程序的运算速度。...第17行中，我们先建立模型对象，然后在19、20行设置最大迭代次数以及告诉模型应该包括截距项。22和24行插入了两句获取时间的函数，是为了评估模型训练（23行）花费的时间。...在第31行中，我们用拟合出的模型对训练集本身进行了预测。parsed.map(_.features) 的目的是取出训练集中的自变量部分，而 predict() 方法返回的结果就是因变量的预测值向量。

4.2K1 0

Delta Lake 学习笔记（一）

不熟悉 sbt 的同学很容易从入门到放弃，IDEA 的 sbt 就更甚了，经常有各种各样的问题，而恰恰 Delta 又是一个使用 sbt 做依赖管理的项目，所以想要用 IDEA 愉快的研究 Delta...其实之所以很多同学都导入不成功，是因为不太熟悉 sbt，包括本屌也是，其实算不上熟悉，最多叫做会用一点点。由于大家本地环境千差万别，我这里只说说我本地环境导入项目时候遇到的一些问题。...按照官网提供的命令，第一步是 compile 编译整个项目。在 IDEA 里可以利用 sbt shell 来输入 compile 命令，编译成功的样子如下。 ?...之后我们就可以在 IDEA 中运行各种测试用例，打断点 debug 等学习了。 ?...3 Summary 不熟悉 sbt 的同学很可能会因为导入 IDEA 的时候出现问题而放弃研究这个项目（我以前可能就是这样…），毕竟导入之后，我们才可以愉快的进行各种调试。

1.1K3 0

Fedora 配置 Spark 实验环境（一）安装Hadoop、Spark

另外，sbt会将current project切到当前工作目录下对应的project 远程网络慢的话，可以更换maven仓库 mkdir ~/.sbt vi ~/.sbt/repositories 添加以下内容...[ext] sudo vi /usr/share/sbt/conf/sbtopts 在末尾添加以下内容： -Dsbt.override.build.repos=true 3....HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop source ~/.bashrc cd ~/hadoop/hadoop-3.2.4 vi etc/hadoop/hadoop-env.sh #设置.../spark-defaults.conf #在末行添加如下语句：spark.driver.host localhost 启动spark-shell： spark-shell # 或者运行run-example...SparkPi 10语句来测试是否能跑完程序 run-example SparkPi 10 # 或者提交jar程序在集群上运行 cd $SPARK_SHELL bin/spark-submit --class

9805 0

PySpark初级教程——第一步大数据分析(附代码实现)

spark正可以应对这些问题了解Spark是什么，它是如何工作的，以及涉及的不同组件是什么简介我们正在以前所未有的速度生成数据。老实说，我跟不上世界各地里产生的巨大数据量!...3.安装Scala构建工具(SBT) 当你处理一个包含很少源代码文件的小型项目时，手动编译它们会更容易。...但是，如果你正在处理一个包含数百个源代码文件的大型项目呢?在这种情况下，你需要使用构建工具。 SBT是Scala构建工具的缩写，它管理你的Spark项目以及你在代码中使用的库的依赖关系。...在文件spark-env.sh中。...设置Spark环境变量使用下面的命令打开并编辑bashrc文件。

4.5K2 0

1 Spark机器学习 spark MLlib 入门

开始学习spark ml了，都知道spark是继hadoop后的大数据利器，很多人都在使用spark的分布式并行来处理大数据。spark中也提供了机器学习的包，就是MLlib。...MLlib中也包含了大部分常用的算法，分类、回归、聚类等等，借助于spark的分布式特性，机器学习在spark将能提高很多的速度。MLlib底层采用数值计算库Breeze和基础线性代数库BLAS。...配好后，我们来新建一个project，然后选择sbt。 ? ? 在scala这里选择一个scala版本。然后创建完毕这个sbt项目。...注意，你会经历比较漫长的等待，等待sbt的各种jar包下载完毕，然后你的项目才能创建成功。 sbt你可以理解为一种构建方式，和maven、gradle一样，通过sbt能管理你需要依赖的jar。...创建后的项目长这样，build.sbt里面就是配置项目的基本属性的，用过gradle的应该比较熟悉这种写法。

1.2K2 0

SBT入门

前言我们用IDEA创建Spark项目的时候，默认都是使用SBT作为构建工具的，那么SBT是个啥？...，忽略项目自身仓库配置该参数可以通过 Java System Property 进行设置。...在 SBT 中，有三种方法可以设置 Java System Property，可以根据需要自行选择。.../Linux 平台，打开 sbt-1.3.0/conf/sbtopts 文件，在末尾新增一行，内容如下： -Dsbt.override.build.repos=true 方法二：设置环境变量在 Windows...上通过 set 命令进行设置， set SBT_OPTS="-Dsbt.override.build.repos=true" 在 Mac/Linux 上使用 export 命令进行设置， export

1.1K5 0

geotrellis使用初探

，当然是个很有用的东西，但是怎么学习之，是个很大的问题。...完全没有思路，看到sbt，那就开始学习sbt吧，sbt其实是相当于Maven的一个框架，能够帮我们管理scala项目，刚开始为了跑例子，也没有怎么研究，就是看到说直接到项目目录运行....部署了Spark环境（参考之前的一篇文章使用Ambari安装hadoop集群），然后又研究了sbt，在Windows的笔记本上搭建了开发环境（IDEA+SCALA+SBT），这块网上的介绍也很多，不在这里介绍...然后把Geotrellis clone到本地，简单看了一下源码，发现比较高深，一筹莫展，打个jar包放到服务器上，运行spark-shell然后按照reademe中的步骤一步步来，无奈一直报错，根本不知道什么原因...）是geotrellis的helloworld，clone本地之后运行，OK一切正常，然后将geotrellis项目中的Reademe中的东西拿来测试，OK跑通，心中甚是激动。

1.6K8 0

Spark部署

/sbt/sbt assembly 　就等着吧，它会下载很多jar包啥的，这个过程可能会卡死，卡死的就退出之后，重新执行上面的命令。　　.../make-distribution.sh, 然后会生成一个dist目录，这个目录就是我们要部署的内容。...4) 部署成功之后，想要在上面部署程序的话，在执行./spark-shell的时候，要加上MASTER这个参数。 MASTER=spark://IP:PORT ..../spark-shell 3、High Availability 　　Spark采用Standalone模式的话，Spark本身是一个master/slaves的模式，这样就会存在单点问题，Spark采用的是...在spark-env.sh添加以下设置： //设置下面三项JVM参数，具体的设置方式在下面 //spark.deploy.recoveryMode=ZOOKEEPER //spark.deploy.zookeeper.url

1.1K5 0

Spark Streaming 与 Kafka0.8 整合

1.1 引入对于使用 SBT/Maven 项目定义的 Scala/Java 应用程序，请引入如下工件（请参阅主编程指南中的Linking部分以获取更多信息）。...请记住: Kafka 中的 topic partition 区与 Spark Streaming 中生成的 RDD partition 没有相关性。...对于 Scala 和 Java 应用程序，如果你使用 SBT 或 Maven 进行项目管理，需要将 spark-streaming-kafka-0-8_2.11 及其依赖项打包到应用程序 JAR 中。...对于缺乏　SBT/Maven 项目管理的 Python 应用程序，可以使用 –packages 直接将 spark-streaming-kafka-0-8_2.11 及其依赖添加到 spark-submit...２.1 引入对于使用 SBT/Maven 项目定义的 Scala/Java 应用程序，请引入如下工件（请参阅主编程指南中的Linking部分以获取更多信息）。

2.3K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

OpenCV300 CMake生成project在项目过程中的问题

Spark 开发环境搭建

Spark的那些外部框架

基于spark源码做单元测试

在idea中如何设置项目编码为UTF-8？

Spark Streaming 项目实战(1) | 生成随机数据并写入到Kafka中

傻白甜，约不约？

30分钟--Spark快速入门指南

使用SBT正确构建IndexedRDD环境

Spark历险记之编译和远程任务提交

Spark Submit的ClassPath问题

【腾讯云的1001种玩法】Ubuntu 14.04 Spark单机环境搭建与初步学习

Delta Lake 学习笔记（一）

Fedora 配置 Spark 实验环境（一）安装Hadoop、Spark

PySpark初级教程——第一步大数据分析(附代码实现)

1 Spark机器学习 spark MLlib 入门

SBT入门

geotrellis使用初探

Spark部署

Spark Streaming 与 Kafka0.8 整合

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐