通过火花流从HBase读取数据

、、

所以我的项目流程是Kafka -> Spark Streaming ->HBase现在我不知道如何使用Spark Streaming从<e

浏览 30提问于2016-07-25得票数 1

回答已采纳

1回答

火花的慢速性能

、、、

我在集群模式下使用星火(1主，2个从站，8个核心，每个32 Gb，运行在Yarn和Hdfs之上) private static但是，如果我举一个从Hbase读取文件并执行转换和显示结果的简单示例，它是非常快速的。我能够在2分钟内处理8Gb文件。

浏览 7提问于2022-04-08得票数 0

2回答

读取火花流中的Hbase数据

、、

一开始，我尝试使用newAPIHadoop从hbase获取数据。只说一次，我的意思是，每次我启动我的火花流应用程序，这段代码片段将被执行，我可以得到一个值，但它将不再执行。最后，我发现还有一种使用hbase.clinet HTable从hbase读取数据的方法。比方说，如果我在1秒内有1000多个记录，那么我的火花流中就会设置1000个连接。这是从hba

浏览 5提问于2016-09-29得票数 3

回答已采纳

2回答

按顺序执行火花流操作

、、、

我在火花流应用程序中读取kafka的数据，并执行两个操作。将dstreams插入hbase表A 我希望确保dstream中的每个rdd在对hbase表B的更新操作之前插入到hbase表A(对每个rdd依次执行上述两个操作)如何在火花流应用程序中实现这一点

浏览 5提问于2017-05-30得票数 2

回答已采纳

1回答

如何用JAVA读写HBASE中的数据

、、

我可以通过HBASE项目提供的JAVA读写HBASE中的数据。但这样的读取操作将在火花驱动程序中进行处理，这似乎不是一种聪明的方法。是否有火花方式从HBASE读取数据，以便在不同的工人中完成阅读操作，以提高绩效？

浏览 3提问于2017-07-13得票数 0

回答已采纳

1回答

Hbase火花流

、、

我试图从hbase获得数据，尽管我发现，要获得Hbase的数据，我必须通过Kafka，是否有可能在火花流和hbase之间直接集成，而不将Kafka包括在链中谢谢。

浏览 3提问于2017-01-11得票数 5

回答已采纳

2回答

如何使用scala使用spark streaming从HBASE表中获取数据

、、、

我正在尝试确定一种解决方案，使用火花流从HBASE表中读取数据，并将数据写入另一个HBASE表。例如，如果我有一个HBASE表'SAMPLE‘，它的列是'name’和'

浏览 0提问于2018-12-11得票数 0

2回答

火花卡夫卡流- java.lang.NoClassDefFoundError: akka/util/Helpers$ConfigOps$

、、、

我正在编写一个用Scala编写的星星之火应用程序，它听着一个Kafka主题。应用程序只是打印收到的消息，仅此而已。我在我的机器上运行这个..。import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtils..... val topics = "topicNa

浏览 0提问于2015-12-11得票数 0

回答已采纳

1回答

利用Apache火花数据

、、、、

目前，我正在阅读关于Kafka & Spark的教程，有些事情我无法理解:如何利用/公开收到的数据。以下是我想要理解的：我读过很多来自Spark的特性，它可以使用内存中的存储(也可以被持久化或缓存)将RDDs转换成其他R

浏览 0提问于2017-02-16得票数 2

回答已采纳

1回答

火花流:源HBase

、、、

是否可能有火花流作业设置来跟踪HBase表并读取每批新的/更新的行？博客说HDFS文件属于受支持的源代码。但是他们似乎使用了以下静态API：谢谢!

浏览 4提问于2016-12-08得票数 2

1回答

存储传入流数据的最佳方法是什么？

、、、、

对于通过星火流处理的数据的长期存储(很多写，很少读取)来说，有什么更好的选择: Parquet、HBase或Cassandra？还是别的什么？什么是权衡？

浏览 0提问于2016-11-12得票数 5

1回答

度量收集和分析体系结构

、、、、

首先，不需要存储所有数据，因为用户只需要指定时间段的图表，因此需要一些聚合。什么样的数据库解决方案适合它？我相信没有RDMS会处理这么多的数据。那么，如何获取度量的平均数据来将其呈现给最终用户呢？AWS具有共享的时间序列数据处理架构：很简单，我是这样想的：旧表存储在

浏览 0提问于2018-11-26得票数 1

1回答

用saveAsNewAPIHadoopDataset阻塞python向Hbase写入数据的火花流

、、

我正在使用火花流python阅读卡夫卡并写到hbase，我发现在saveAsNewAPIHadoopDataset舞台上的工作很容易被屏蔽。如下图所示:你会发现这一阶段的持续时间是8小时。请通过Hbase api写入数据，还是直接通过HDFS写入数据？

浏览 3提问于2015-04-24得票数 0

2回答

实时的蜂窝数据转换？

、、、、

我有以下数据管道：正如你所看到的，第三步使我的管道变得不

浏览 1提问于2020-02-13得票数 1

回答已采纳

1回答

为什么持久化(StorageLevel.MEMORY_AND_DISK)给出的结果与HBase的cache()不同？

、、、、

df.persist(StorageLevel.MEMORY_AND_DISK)我将persist(StorageLevel.MEMORY_AND_DISK)替换为cache()，它将按预期从HBase我们尝试使用persist(StorageLe

浏览 1提问于2018-08-27得票数 3

1回答

什么是与Hbase交互的最佳方式？

、、、、

我使用的是火花火花2.3.1和Hbase 1.2.1，我想知道怎样才能最好地使用pyspark访问Hbase？SparkContext() data_source_format = 'org.apache.spark.sql.execution.datasources.hbaseapplication main()spark-sub

浏览 1提问于2019-02-22得票数 1

回答已采纳

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。将已连接的DataFrame写入HBase表。在每次运行此代码时，我都希望只从流中读取</e

浏览 7提问于2020-07-08得票数 3

1回答

hbase跳过区域服务器直接从hfile读取行

、、、

目前正在使用Hbase对hdfs上的不同数据进行排序。该应用程序正在使用spark构建。当从hbase读到火花时，区域似乎决定了火花的划分，从而决定了2G的极限。，这是否意味着区域大小需要很小？绕过该区域的T

浏览 3提问于2017-03-22得票数 2

回答已采纳

1回答

我正在使用火花汽蒸来使用卡夫卡的数据，代码片段如下：rdd.foreachRdd{rdd=>rdd.foreachPartition{...}}我使用foreachPartition，因为我需要创建与Hbase的连接，我不想打开/关闭每条记录的连接。但我发现，当卡夫卡没有数据时，火花流仍然在处理foreachRdd和foreachPartition。这导致许多Hbase连接被创建，即使没有任何数据被消耗。我真的不喜欢这样，如果没有卡夫卡

浏览 0提问于2015-09-06得票数 1

回答已采纳

1回答

减少Spark和HBase节点之间的延迟

、、

我在星火节点和HBase节点之间经历了很高的延迟。当前的资源要求我在不同的服务器上运行HBase和Spark。使用Snappy算法对HFiles进行压缩，将每个区域的数据大小从50 to减少到10 to。然而，在有线上传输的数据总是被解压缩的，所以读取需要花费大量的时间--大约是每秒20 MB的，即每50 MB区域的大约45分钟。我想在本地将H

浏览 2提问于2016-01-28得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花的慢速性能

读取火花流中的Hbase数据

按顺序执行火花流操作

如何用JAVA读写HBASE中的数据

Hbase火花流

如何使用scala使用spark streaming从HBASE表中获取数据

火花卡夫卡流- java.lang.NoClassDefFoundError: akka/util/Helpers$ConfigOps$

利用Apache火花数据

火花流:源HBase

存储传入流数据的最佳方法是什么？

度量收集和分析体系结构

用saveAsNewAPIHadoopDataset阻塞python向Hbase写入数据的火花流

实时的蜂窝数据转换？

为什么持久化(StorageLevel.MEMORY_AND_DISK)给出的结果与HBase的cache()不同？

什么是与Hbase交互的最佳方式？

火花结构化流检查点在生产中的使用

hbase跳过区域服务器直接从hfile读取行

SparkStreaming一直在处理卡夫卡中的任何数据

减少Spark和HBase节点之间的延迟

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐