每天进步一点点

文章/答案/技术大牛

发布

LV0

提出了问题 2024-07-042024-07-04 21:22:48

hive impala自定义udf报错?

0回答

hive、大数据、impala、timestamp、大数据处理

提出了问题 2024-07-042024-07-04 21:22:44

hive impala自定义udf报错?

0回答

hive、大数据、impala、timestamp、大数据处理

发表了文章 2022-12-152022-12-15 16:05:30

3.Zookeeper常用Shell命令

查看节点列表有 ls path 和 ls2 path 两个命令，后者是前者的增强，不仅可以查看指定路径下的所有节点，还可以查看当前节点的信息。

每天进步一点点 2022-12-152022-12-15 16:05:30

zookeeper

发表了文章 2022-12-152022-12-15 16:04:55

4.Azkaban Flow 2.0的使用

Azkaban 目前同时支持 Flow 1.0 和 Flow2.0 ，但是官方文档上更推荐使用 Flow 2.0，因为 Flow 1.0 会在将来的版本被移除。...

每天进步一点点 2022-12-152022-12-15 16:04:55

任务调度、java

发表了文章 2022-12-152022-12-15 16:04:14

3.Azkaban Flow 1.0 的使用

目前 Azkaban 3.x 同时支持 Flow 1.0 和 Flow 2.0，本文主要讲解 Flow 1.0 的使用，下一篇文章会讲解 Flow 2.0 的使...

每天进步一点点 2022-12-152022-12-15 16:04:14

打包、任务调度、sql、大数据

发表了文章 2022-12-152022-12-15 16:03:05

2.Azkaban 3.x 编译及部署

Azkaban 在 3.0 版本之后就不提供对应的安装包，需要自己下载源码进行编译。

每天进步一点点 2022-12-152022-12-15 16:03:05

打包、jdk、jar、gradle、git

发表了文章 2022-12-152022-12-15 16:02:13

1.Azkaban简介

一个完整的大数据分析系统，必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工...

每天进步一点点 2022-12-152022-12-15 16:02:13

网站、云数据库 SQL Server、数据库、数据分析、sql

发表了文章 2022-12-152022-12-15 16:01:21

1.Scala简介及开发环境配置

Scala 全称为 Scalable Language，即“可伸缩的语言”，之所以这样命名，是因为它的设计目标是希望伴随着用户的需求一起成长。Scala 是一门...

每天进步一点点 2022-12-152022-12-15 16:01:21

java、scala、sdk、ide

发表了文章 2022-12-152022-12-15 16:00:29

Hive 视图和索引

Hive 中的视图和 RDBMS 中视图的概念一致，都是一组数据的逻辑表示，本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象，没有关联的存储 (...

每天进步一点点 2022-12-152022-12-15 16:00:29

hive、大数据、存储

发表了文章 2022-07-272022-07-27 10:26:21

2.Linux下Flume的安装

下载所需版本的 Flume，这里我下载的是 CDH 版本的 Flume。下载地址为：http://archive.cloudera.com/cdh5/cdh/5...

每天进步一点点 2022-07-272022-07-27 10:26:21

jdk、bash、bash 指令、专用宿主机

发表了文章 2022-07-272022-07-27 10:26:01

1.Flume 简介及基本使用

Apache Flume 是一个分布式，高可用的数据收集系统。它可以从不同的数据源收集数据，经过聚合后发送到存储系统中，通常用于日志数据的收集。Flume 分为...

每天进步一点点 2022-07-272022-07-27 10:26:01

大数据、文件存储

发表了文章 2022-07-272022-07-27 10:25:37

4.Kafka消费者详解

在 Kafka 中，消费者通常是消费者群组的一部分，多个消费者群组共同读取同一个主题时，彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Ka...

每天进步一点点 2022-07-272022-07-27 10:25:37

kafka、api、node.js

发表了文章 2022-07-272022-07-27 10:25:17

3.Kafka生产者详解

本项目采用 Maven 构建，想要调用 Kafka 生产者 API，需要导入 kafka-clients 依赖，如下：

每天进步一点点 2022-07-272022-07-27 10:25:17

文件存储、kafka、http

发表了文章 2022-07-272022-07-27 10:24:53

2.基于Zookeeper搭建Kafka高可用集群

为保证集群高可用，Zookeeper 集群的节点数最好是奇数，最少有三个节点，所以这里搭建一个三个节点的集群。

每天进步一点点 2022-07-272022-07-27 10:24:53

kafka、存储、zookeeper

发表了文章 2022-07-272022-07-27 10:24:34

1.Kafka简介

Kafka 的基本数据单元被称为 message(消息)，为减少网络开销，提高效率，多个消息会被放入同一批次 (Batch) 中后再写入。

每天进步一点点 2022-07-272022-07-27 10:24:34

kafka、批量计算、分布式

发表了文章 2022-07-272022-07-27 10:23:48

Hbase的SQL中间层——Phoenix

Phoenix 是 HBase 的开源 SQL 中间层，它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前，如果你要访问 ...

每天进步一点点 2022-07-272022-07-27 10:23:48

TDSQL MySQL 版、hbase、sql、http、html

发表了文章 2022-07-272022-07-27 10:23:24

Hbase容灾与备份

本文主要介绍 Hbase 常用的三种简单的容灾备份方案，即CopyTable、Export/Import、Snapshot。分别介绍如下：

每天进步一点点 2022-07-272022-07-27 10:23:24

hbase、apache、TDSQL MySQL 版、大数据

发表了文章 2022-07-272022-07-27 10:22:58

Hbase 协处理器

在使用 HBase 时，如果你的数据量达到了数十亿行或数百万列，此时能否在查询中返回大量数据将受制于网络的带宽，即便网络状况允许，但是客户端的计算处理也未必能够...

每天进步一点点 2022-07-272022-07-27 10:22:58

jar、shell、hbase、api、java

发表了文章 2022-07-272022-07-27 10:22:37

Hbase 过滤器详解

Hbase 提供了种类丰富的过滤器（filter）来提高数据处理的效率，用户可以通过内置或自定义的过滤器来对数据进行过滤，所有的过滤器都在服务端生效，即谓词下推...

每天进步一点点 2022-07-272022-07-27 10:22:37

hbase、TDSQL MySQL 版、unix

发表了文章 2022-07-272022-07-27 10:22:17

HBase Java API 的基本使用

截至到目前 (2019.04)，HBase 有两个主要的版本，分别是 1.x 和 2.x ，两个版本的 Java API 有所不同，1.x 中某些方法在 2.x...

每天进步一点点 2022-07-272022-07-27 10:22:17

hbase、TDSQL MySQL 版、api、java、maven

12 3 下一页

个人简介

途牛 | 数据开发
曾经北京荣耀编外数据开发，目前在南京工作 http://lvmin.ltd
hive flink spark
运城学院 | 计算机科学与技术
http://lvmin.ltd
江苏省 | 南京市
加入社区时间：2020-11-26

个人成就

获得 113 次赞同
文章被阅读 58.8K 次

关注了：1关注者：18