开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

无法将Spark与eclipse中的Hortonworks Sandbox连接

Spark是一个开源的大数据处理框架，而Hortonworks Sandbox是一个基于Hadoop的虚拟机环境，用于学习和开发大数据应用。将Spark与Hortonworks Sandbox连接可以实现在Sandbox环境中使用Spark进行大数据处理和分析。

要将Spark与eclipse中的Hortonworks Sandbox连接，可以按照以下步骤进行操作：

安装Spark：首先需要在本地环境中安装Spark。可以从Spark官方网站（https://spark.apache.org/）下载最新版本的Spark，并按照官方文档进行安装和配置。
配置Spark连接参数：在eclipse中创建一个新的Java项目，并在项目中添加Spark的依赖。然后，在代码中配置连接Hortonworks Sandbox的参数，包括Hadoop集群的地址、端口、用户名和密码等。
创建SparkSession：使用SparkSession对象来连接Hortonworks Sandbox。可以通过以下代码创建一个SparkSession对象：

import org.apache.spark.sql.SparkSession;

SparkSession spark = SparkSession
    .builder()
    .appName("SparkHortonworksConnection")
    .master("yarn")
    .config("spark.hadoop.fs.defaultFS", "hdfs://<sandbox-ip>:<sandbox-port>")
    .config("spark.hadoop.yarn.resourcemanager.address", "<sandbox-ip>:<sandbox-port>")
    .config("spark.hadoop.yarn.resourcemanager.scheduler.address", "<sandbox-ip>:<sandbox-port>")
    .config("spark.hadoop.yarn.resourcemanager.hostname", "<sandbox-ip>")
    .config("spark.hadoop.yarn.resourcemanager.webapp.address", "<sandbox-ip>:<sandbox-port>")
    .config("spark.hadoop.yarn.resourcemanager.webapp.https.address", "<sandbox-ip>:<sandbox-port>")
    .config("spark.hadoop.yarn.resourcemanager.webapp.https.address", "<sandbox-ip>:<sandbox-port>")
    .config("spark.hadoop.yarn.resourcemanager.webapp.https.address", "<sandbox-ip>:<sandbox-port>")
    .getOrCreate();

请注意，上述代码中的<sandbox-ip>和<sandbox-port>需要替换为Hortonworks Sandbox的实际IP地址和端口号。

运行Spark应用：编写Spark应用程序，并使用上述创建的SparkSession对象来执行Spark任务。可以使用Spark提供的各种API和功能来处理和分析大数据。

推荐的腾讯云相关产品：腾讯云的云服务器（CVM）和云数据库（CDB）可以作为替代品使用，用于搭建和管理类似Hortonworks Sandbox的大数据环境。您可以在腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的信息和使用指南。

希望以上信息对您有所帮助！

相关搜索:无法将Spark连接到RStudio中的Cassandra DB 无法从mySQL中的jsp连接到Eclipse 无法使用Hibernate中的Eclipse连接到本地MySQL 无法触发spark 3.0.0中AQE的斜连接优化无法将Odoo pod与私有GKE中的postgres pod连接无法在Eclipse中建立到Oracle DBMS的JDBC连接连接多个spark dfs，将数组列与所有值的联合合并无法将原语分配给Eclipse中的对象数组如何在Power BI中定义与Spark Thrift的本地连接在Spark SQL中，是否可以将hive表与内存中的表连接起来？TypeError: Object(...)不是函数-无法将redux与react中的包装函数连接将函数名中的前缀与宏连接？是否将文本与变量中的变量连接？如何将gradle任务与Eclipse中的键盘命令关联起来？无法将spark数据帧写入PySpark中的C盘，也无法将spark数据帧写入到地块文件格式无法将电子病历中的Cassandra与群集模式下的bundle.zip连接无法将Spark Dataframe中的空值替换为整数值无法将按钮连接到PyQT中的事件无法将Applovin与Unity中的Admob中介集成如何将documentdb连接到emr实例中的spark应用程序

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark DataFrame写入HBase的常用方式

Spark是目前最流行的分布式计算框架，而HBase则是在HDFS之上的列式分布式存储引擎，基于Spark做离线或者实时计算，数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介，供客户端使用。因此Spark如何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式，其中一种还在期待中，暂且官网即可... 代码在spark 2.2.0版本亲测 1. 基于HBase API批量写入第一种是最简单的使用方式了，就是基于RDD的分区

05

大数据处理必备的十大工具

Hive是一个建立在Hadoop上的开源数据仓库基础设施，通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。

03

手把手教你入门Hadoop（附代码资源）

作者：GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基（Piotr Krewski）和GETINDATA公司首席执行官兼创始人亚当·卡瓦（Adam Kawa）

04

手把手教你入门Hadoop（附代码&资源）

作者：GETINDATA公司创始人兼大数据顾问彼得亚·雷克鲁斯基（Piotr Krewski）和GETINDATA公司首席执行官兼创始人亚当·卡瓦（Adam Kawa）

06

spark读写HBase之使用hortonworks的开源框架shc（一）：源码编译以及测试工程创建

以下是我修改后的两个子模块core和examples中的pom文件，只修改了version

03

Apache NiFi 1.0.0测试版：邮件路由应用新型ListenSMTP

本文为用户使用Apache NiFi最新版本来监听SMTP邮件，并以编程方式做出反应以及捕捉数据提供了指导。首先就可以注意到Apache NiFi 1.0.0应用了很棒的新界面，更加清晰也更加方便使

「EMR 开发指南」之 Kylin 快速构建 Cube

在大数据领域，数据量持续增长，数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题，Apache Kylin应运而生。

01

Termux安装Ubuntu和xfce4桌面

前面几篇 Termux 的文章介绍了怎么安装 xfce4，但是当时没有在 ubuntu 环境下安装，导致有些应用程序启动有问题，比如：eclipse、vsode和sublime等。所以这次打算在 Termux 上的 ubuntu 里安装桌面和应用程序试试。

01

Hadoop/Spark生态圈里的新气象

令人惊讶的是，Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分，以及它们各自具有的意义。对于Hadoop你需要了解的最重要的事情就是，它不再是原来的Hadoop。这

05

数据科学家眼中的大数据和云计算

本次分享第【1】部分：什么是数据科学。本次分享第【2】部分：如何从小白成长为数据科学家。本次分享第【3】部分：如何以Python为工具走入数据科学之门。分享主题：Data Science学习分享

08

spark源码单步跟踪阅读-从毛片说起

想当年读大学时，那时毛片还叫毛片，现在有文明的叫法了，叫小电影或者爱情动作片。那时宿舍有位大神，喜欢看各种毛片，当我们纠结于毛片上的马赛克时，大神大手一挥说道：这算啥，阅尽天下毛片，心中自然无码！突然想到我们在学习spark时，也可以有这种精神，当我们能读懂spark源码时，spark的技术世界也就真正为我们敞开了大门。中国台湾C++大师侯捷说过：源码面前，了无秘密！那我们就从如何单步调试spark源码开始讲起吧。首先开发工具推荐大家选择IntelliJ，Intellij在和scala语言的结合上，

05

继Storm和Spark之后，Hortonworks添加对Kafka的支持

据Gigaom消息，Hortonworks已经将Apache Kafka加入其Hadoop软件平台的技术预览版中。对比Spark，Kafka的在流行度上可能稍有逊色，但是却被广泛运用于一些大型网络公司的应用架构中。Kafka最初是由LinkedIn设计的实时消息系统，当下已经被很多网络公司用于将Web应用消息快速传递到合适的数据服务中。 image.png 除了Kafka之外，Hortonworks已经分别整合了Spark与Storm。在2013年底，Hortonworks宣布在收到大量的客户请求后，Hor

07

【学习】开源大数据查询分析引擎现状

文|叶蓬【按：此文是与我的《基于大数据分析的安全管理平台技术研究及应用》同期发表在内刊上的我的同事们的作品，转载于此。这些基础性的研究和测试对比分析，对于我们的BDSA技术路线选定大有帮助。】引言大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon D

07

Kafka实战：从RDBMS到Hadoop，七步实现实时传输

本文是关于Flume成功应用Kafka的研究案例，深入剖析它是如何将RDBMS实时数据流导入到HDFS的Hive表中。对于那些想要把数据快速摄取到Hadoop中的企业来讲，Kafka是一个很好的选择。Kafka是什么？Kafka是一个分布式、可伸缩、可信赖的消息传递系统，利用发布-订阅模型来集成应用程序/数据流。同时，Kafka还是Hadoop技术堆栈中的关键组件，能够很好地支持实时数据分析或者货币化的物联网数据。本文服务于技术人群。下面就图解Kafka是如何把数据流从RDBMS（关系数据库管理系统）导

06

大数据修炼的个人道场

大数据技术火热而且火爆，学习大数据的课程和资料也泛滥如潮，而大数据研发环境又不是随便就可以搭建起来的，如何有一个自己随时可用的大数据修炼道场呢？

03

从十大技术和十大巨头了解大数据

大数据在各行各业中取得了迅猛发展，许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据，当然这么做的目的不只是管理和控制数据，而是要分析和挖掘其中的价值，来促进业务的发展。着眼大数据，过去几年内产生了许多颠覆性技术，比如Hadoop、MongDB、Spark、Impala等，了解这些前沿技术还有助于你更好的把握大数据发展趋势。诚然，想了解一件事物，首先要了解与该事物有关的人。因此，要想了解大数据，光了解技术是远远不够的，本文中大数据领域的十个巨头，将有助于你更深入掌握大数据这个行业的发展形势。

06

相比Hadoop,如何看待Spark技术?

之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性。但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标

05

60位+超强讲师阵容！中国云计算技术大会部分讲师议题公布

由CSDN主办的2016中国云计算技术大会（CCTC）将于5月13日-15日在北京举行。作为业内最具价值的云计算年度技术盛会，今年大会为期三天，以“技术与应用，趋势与实践”为主题，除了顶尖技术专家云集的Keynote演讲，主办方还特设了“中国Spark技术峰会”、“OpenStack技术峰会”、“Container技术峰会”、“大数据核心技术与应用实战峰会”四大技术主题峰会以及“云计算核心技术架构”、“云计算平台构建与实践”等专场技术论坛。为保证演讲内容质量，主办方倾情邀请了几乎是国内最顶尖的技术讲师阵

03

Cloudera和Hortonworks 合并的整体梳理

0. 下一代的企业数据云将创建世界领先的下一代数据平台提供商，涵盖多云，内部部署和Edge。该组合为混合云数据管理建立了行业标准，加速了客户采用，社区发展和合作伙伴参与。我们两家公司的业务具有很强的互补性和战略性。通过将Hortonworks在端到端数据管理方面的投资与Cloudera在数据仓库和机器学习方面的投资结合起来，我们将提供业界首个从Edge到AI的企业数据云。这一愿景将使我们的公司能够在追求数字化转型的过程中推动我们对客户成功的共同承诺。两个公司希望通过合并，创造出一个年收入达到 7.2 亿美元的新实体，并制定清晰的行业标准，成为下一代数据平台领先者，提供业界第一个企业级数据云，提高公共云的易用性和灵活性一直以来 Hortonworks 团队投资于实时数据流和数据摄取以支持边缘的物联网使用案例，而 Cloudera 更专注于 AI 和 ML 领域，使数据科学家能够使用极其复杂的工具来自动化机器学习工作流。 Cloudera新的CDP平台会同时支持运行在本地，私有云，以及5个最大的公有云包括Amazon，Microsoft，Google，IBM和Oracle 第一个CDP版本将包含CDH6.x和HDP3.x中的一系列组件，并将专注于运行客户现有的工作负载和数据两家公司对外正式宣称统一版本会基于最新的HDP3.0+CDH6.0 Hadoop 商业化最典型的公司就是Hadoop的三驾马车——Hortonworks、Cloudera和MapR。昨天我们是 Hortonworks，今天，随着我们合并的正式完成，我们是 Cloudera——现在是全球第二大开源软件公司。”，目前全球第一大开源软件公司仍旧是红帽。 1. 新的趋势 1.1 企业向公有云转变(aws,azure,google cloud) hadoop/spark 只是其一部分 1.2 云存储成本底对象存储服务(aws s3,axure blob,google 云端存储) 比hadoop/spark 便宜了5倍 1.3 云服务器以完全不一样的方式解决了同样的问题，运行即席查询用户按计算时间计费，无需维护操作hadoop/spark集群 1.4 容器,kenernates和机器学习，今天在python/R语言下进行机器学习，容器与kubernates 为分布式计算提供了更加强大灵活的框架不打算基于hadoop/spark 进行分发心得饿微服务应用程序 2. 产品影像 2.1 毫无疑问对于一些无论是Cloudera还是Hortonworks都打包的较为通用的的组件，基本可以毫无疑问的确定会包含在统一版本中。具体包括核心的Apache Hadoop项目如MapReduce，HDFS和YARN - 以及Apache Spark，Apache Hive，Apache HBase，Apache Kafka，Apache Solr，Apache Oozie，Apache Pig，Apache Sqoop和Apache Zookeeper。我们对新兴的对象存储项目Apache Hadoop Ozone的信心略有不足 2.2 存疑的有一些开源项目目前仅包含在CDH或HDP中，而Cloudera也没有与之专门对标的产品，它们是否能包含在合并版中目前还存疑。比如说Apache Kudu和Apache Impala，这2个最初都是由Cloudera开发的，用于提供列式数据存储和ad hoc的分析，而最近Hortonworks引入了Apache Druid与之对应。 2.3 有争议的 Apache Ambari直接与Cloudera Manager竞争，再比如Cloudera使用Cloudera Navigator来实现数据治理和数据溯源，而Hortonworks则使用Apache Atlas。 Cloudera将清楚地意识到任何关于它想要扼杀开源功能的建议都将被认为是“大棒”，而不是“胡萝卜”，它将不会被Hortonworks客户和Apache软件基金会开发社区所接受。这是我们认为Cloudera如果想要退出开源需要很谨慎的考虑的另一个原因 - 至少在短期内如此注：“Carrot and stick”(胡萝卜加大棒)

01

Eclipse下Spark+ScalaIDE开发环境部署

刚开始学Spark，之前一直都是在服务器里用Spark-shell进行简单学习的，后来觉得这样实在是很不方便，于是就决定利用Eclipse ide来进行开发，不过这当中遇到了很多问题，搞了半天总算搞得差不多了，下面就记录下环境搭建的步骤方便重新配置。

02

那些年，追过的开源软件和技术

笔者也是在互联网软件行业里面摸爬滚打十年多了，回头想想青葱岁月，很多时间都花在各种技术热潮的追逐上，有些是有价值的，也有些因为没人指导走过弯路，下面我就把我自己接触到这么多优秀的开源软件给大家做个梳理。也许比较枯燥无聊，供大家以后查阅。

02

hadoop发行商介绍：Cloudera

‍‍‍‍在Hadoop生态系统中，规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本（CDH)。‍‍ ‍‍Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈‍‍默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(‍‍Christophe Bisciglia)、埃姆·阿瓦达拉(Amr‍‍ Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。‍‍‍‍ ‍‍首先来看下Cloudera的技术框架

08

Eclipse远程调试Spark

用eclipse将项目export出jar包，传到集群上使用spark-submit提交Application，可以看到在等待：

05

spark踩坑——dataframe写入hbase连接异常

最近测试环境基于shc[https://github.com/hortonworks-spark/shc]的hbase-connector总是异常连接不到zookeeper，看下报错日志： 18/06/20 10:45:02 INFO RecoverableZooKeeper: Process identifier=hconnection-0x5175ab05 connecting to ZooKeeper ensemble=localhost:2181 18/06/20 10:45:02 INFO Rec

02

相比Hadoop,如何看待Spark技术?

之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性。但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了。 Sort和Shuffle是MapReduce上最核心的操作之一，比如上千个Mapper之后，按照Key将数据集分发到对应的Reducer上，要走一个复杂的过程，要平衡各种因素。Spark能处理Peta sort的话，本质上已经没有什么能阻止它处理

09

openfire环境搭建

1、下载源代码：http://www.igniterealtime.org/downloads/source.jsp 2、把源代码解压出的openfire_src文件夹放至eclipse workpl

05

提交Spark任务的三种方式

在使用Spark的过程中，一般都会经历调试，提交任务等等环节，如果每个环节都可以确认程序的输入结果，那么无疑对加快代码的调试起了很大的作用，现在，借助IDEA可以非常快捷方便的对Spark代码进行调试，在借助IDEA来完成Spark时，可以大致通过以下几个步骤来完成：

04

教程|运输IoT中的NiFi

本教程涵盖了Apache NiFi的核心概念及其在其中流量管理，易用性，安全性，可扩展架构和灵活扩展模型非常重要的环境中所扮演的角色。

02

教程|运输IoT中的Kafka

本教程介绍了Apache Kafka的核心概念及其在可靠性、可伸缩性、持久性和性能至关重要的环境中所扮演的角色。

04

基于大数据分析系统Hadoop的13个开源工具

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统，然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理，在要求实时性的场景下毫无用武之地。因此，各

06

CM+CDH 整体介绍

大数据平台的开发环境搭建，我们前面已经说过了，需要搭建Hdfs，Yarn，Spark，HBase，Hive，ZK等等，在开发环境下搭建是用于开发测试的，全部部署在VM 虚拟机里面，小数据量小运算量还可以，数据量运算量一旦上来，虚拟机是玩不转的，这就牵涉到生产环境的Hadoop的生态搭建，难道也需要我们一步一步来搭建吗？几台还可以，那么上百台呢？难道也需要一台台搭建吗？显然不可以，有没有什么好的Hadoop生态的搭建工具呢？国外有俩家企业做了这些事，hortonworks公司推出的Ambari+HDP套件和 Cloudrea公司推出的 CM+CDH 套件，不过这俩家公司 18年底合并了,不过这并不影响我们的使用。 2. CM+CDH介绍 CM是Cloudrea Manager的简称，是Cloudrea 提供的生产环境的Hadoop 生态部署工具，工具套件为CM+CDH,CM负责监控动态管理及部署Hadoop生态服务，CDH里面包含了绝大多数的Hadoop生态中的服务，包含Hdfs，Yarn，ZK，Hive，Hbase，Flume，Sqoop，Spark等。整体上与前面说所得Ambari + HDP类似。 CM+CDH有免费版和收费版，收费版当然功能更加强悍，比如支持回滚，滚动升级，支持Kerberos，SAML/LDAP支持，SNMP支持，自动化备份和灾难恢复，不过在我们看来，免费版已经够我们使用了。这里简单和Ambari + HDP对已一下，CDH在部署Hadoop生态上，整体与HDP类似，通过WEB端动态部署Hadoop生态， Name Web Server Tools hortonworks Ambari HDP HDP-Util Cloudrea CM CDH CDH-Util CM+CDH套件组成 CM：WEB应用程序，后台为Ambari Server，负责与HDP部署的集群工作节点进行通讯，集群控制节点包括Hdfs，Spark，Zk，Hive，Hbase等等。 CDH：HDP包中包含了很多常用的工具，比如Hadoop，Hive，Hbase，Spark等 CDH-Util：包含了公共包，比如ZK等一些公共组件。 3. CM+CDH 部署

01

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

修改了Hive版本为3.1.2，其携带的jetty是0.9.3，hudi本身用的0.9.4，存在依赖冲突。

03

关于大数据分析系统 Hadoop，这里有13个开源工具送给你

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。

02

【盘点】十大最受欢迎的开源大数据技术

导读：大数据已然成为当今最热门的技术之一，正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点最受欢迎的十大开源的大数据技术十大开

09

大数据架构：全网最全大数据架构生态

随着大数据行业的发展，大数据生态圈中相关的技术也在一直迭代进步，作者有幸亲身经历了国内大数据行业从零到一的发展历程，通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。

01

Hadoop体系_集团架构

自从大数据的概念被提出后，出现了很多相关技术，其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop，它就像软件发展史上的Window、Linux、Java一样，它的出现给接下来的大数据技术发展带来了巨大的影响。很多知名公司都加入Hadoop相关项目的开发中，如Facebook、Yahoo等，围绕大数据Hadoop技术产生了一系列大数据的相关技术

02

Yarn【label-based scheduling】实战总结（一）

1.1 Label-based scheduling介绍故名思议，Label based scheduling是一种调度策略，就像priority-based scheduling一样，是调度器调度众多调度策略中的一种，可以跟其他调度策略混合使用，实际上，hadoop也是这样做的。但是，相比于其他调度策略，基于标签的调度策略则复杂的多，这个feature的代码量非常大，基本上需要修改YARN的各个模块，包括API， ResourceManager，Scheduler等。该策略的基本思想是：用户可以为每个n

06

DAG算法在hadoop中的应用

大学里面数据结构里面有专门的一章图论，可惜当年没有认真学习，现在不得不再次捡起来。真是少壮不努力，老大徒伤悲呀！什么是DAG（Directed Acyclical Graphs），先来看下教科书上的定义吧：如果一个有向图无法从某个顶点出发经过若干条边回到该点。让我们再来看看DAG算法现在都应用在哪些hadoop引擎中。 Tez: Hortonworks开发的DAG计算框架，是从MapReduce计算框架演化而来的通用DAG计算框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成In

08

一文看懂大数据生态圈完整知识体系

随着大数据行业的发展，大数据生态圈中相关的技术也在一直迭代进步，作者有幸亲身经历了国内大数据行业从零到一的发展历程，通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。

01

超详细的大数据学习资源推荐（下）

服务编程 Akka Toolkit：JVM中分布性、容错事件驱动应用程序的运行时间； Apache Avro：数据序列化系统； Apache Curator：Apache ZooKeeper的Java库； Apache Karaf：在任何OSGi框架之上运行的OSGi运行时间； Apache Thrift：构建二进制协议的框架； Apache Zookeeper：流程管理集中式服务； Google Chubby：一种松耦合分布式系统锁服务； Linkedin Norbert：集

05

【推荐】非常棒的大数据学习资源

今天为大家推荐一些翻译整理的大数据相关的非常棒的学习资源，希望能给大家一些帮助。服务编程Akka Toolkit：JVM中分布性、容错事件驱动应用程序的运行时间； Apache Avro：数据序列化

05

Spark踩坑记：初试

本文主要介绍了如何通过Apache Spark和Scala在Hadoop集群上实现基于文本的流式处理。首先介绍了Apache Spark和Scala的基本概念，然后详细讲解了如何利用Spark和Scala实现WordCount和FizzBuzz的示例。最后，介绍了一些实践经验，包括如何配置Hadoop和Spark环境、使用Eclipse和Maven构建Scala应用程序以及使用Kafka进行数据流处理等。

02

架构大数据应用

数据管理比以往更加复杂，到处都是大数据，包括每个人的想法以及不同的形式:广告 , 社交图谱,信息流 ,推荐 ,市场, 健康, 安全, 政府等等。过去的三年里，成千上万的技术必须处理汇合在一起的大数据获取，管理和分析; 技术选型对IT部门来说是一件艰巨的任务，因为在大多数时间里没有一个综合的方法来用于选型.

02

一文看懂大数据生态圈完整知识体系

随着大数据行业的发展，大数据生态圈中相关的技术也在一直迭代进步，作者有幸亲身经历了国内大数据行业从零到一的发展历程，通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。目前大数据生态圈中的核心技术总结下来如图1所示，分为以下9类，下面分别介绍。 1 数据采集技术框架数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起，产生了海量数据。这些数据散落在各个地方，我们需要将这些数据融合到一起，然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大

00

一文看懂大数据生态圈完整知识体系

👆点击“博文视点Broadview”，获取更多书讯随着大数据行业的发展，大数据生态圈中相关的技术也在一直迭代进步，作者有幸亲身经历了国内大数据行业从零到一的发展历程，通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。目前大数据生态圈中的核心技术总结下来如图1所示，分为以下9类，下面分别介绍。图1 1 数据采集技术框架数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起，产生了海量数据。这些数据散落在各个地方，我们需要将这些数据融合到一起，然后从这些海量数据中计算出一些

02

大数据那些事(21):又一场大撕逼

我写过一场大数据界的大撕逼，在Google和图灵奖获得者Michael Stonebraker之间。具体的情况可以参考这里。这场大撕逼发生在2008年，可谓惊天动地。 BigData的圈子里有另外一场大撕逼，发生的时间是2011年，这场撕逼的主角是Cloudera和Hortonworks。撕逼的起点是Owen O’Malley这位前Yahoo的Hadoop团队的重要成员，后来的Hortonworks的Founder之一和Hortonworks的Fellow，撕逼的起因是一篇博文：The Yahoo！Ef

07

0540-5.15.0-Spark2使用HBase-Spark访问HBase

越来越多的用户使用Spark对接HBase，对接HBase的方式有多种，通过HBase-client API实现，也有直接Spark On HBase的方式实现，比较常见的有华为的Spark-SQL-on-HBase，Hortonworks的Apache HBase Connector和Cloudera提供的SparkOnHBase，目前Cloudera的SparkOnHBase已提交的HBase的主干版本。本篇文章Fayson主要在Spark2环境下使用Cloudera的SparkOnHBase访问HBase。

04

DIY：用开源软件搭建自己的物联网

物联网（Internet of Things, IoT）是最近被频频提及，也涌现出许多的想法。这个社区持续地在发展，所以需要有一个对大众开放的物联网平台，让每个人都能来实现自己的想法，让大家的生活或

07

Spark快速入门系列(1) | 深入浅出，一文让你了解什么是Spark

Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎并且 Spark 目前已经成为 Apache 最活跃的开源项目, 有超过 1000 个活跃的贡献者.

02

Spark On HBase

MapReduce早已经对接了HBase，以HBase作为数据源，完成批量数据的读写。如今继MapReduce之后的Spark在大数据领域有着举足轻重的地位，无论跑批，流处理，甚至图计算等都有它的用武之地。Spark对接HBase成为不少用户的需求。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭