首页
学习
活动
专区
工具
TVP
发布

大数据解决方案

专栏成员
123
文章
191392
阅读量
36
订阅数
两万字从面试角度全面详解Kafka
Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。
大数据老哥
2022-04-07
7280
Kylin、Druid、ClickHouse该如何选择?
Kylin、Druid、ClickHouse是目前主流的OLAP引擎,本文尝试从数据模型和索引结构两个角度,分析这几个引擎的核心技术,并做简单对比。在阅读本文之前希望能对Kylin、Druid、ClickHouse有所理解。
大数据老哥
2022-04-07
1.1K0
Flink经典的生产问题和解决方案~(建议收藏)
一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。
大数据老哥
2022-04-07
4.2K0
数仓建设 | ODS、DWD、DWM等理论实战(强烈建议收藏~)
数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析,希望对你有帮助。
大数据老哥
2022-04-07
4.5K0
全网最全系列 | Flink原理+知识点总结(4万字、41知识点,66张图)
Flink四大基石分别是:Time (时间)、Window(窗口)、State (状态)、Checkpoint(检查点)。
大数据老哥
2022-04-07
4K0
万字长文带你了解ETL和数据建模~
ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程
大数据老哥
2022-04-07
1.4K0
两万字SQL优化大全
左边的client可以看成是客户端,客户端有很多,像我们经常你使用的CMD黑窗口,像我们经常用于学习的WorkBench,像企业经常使用的Navicat工具,它们都是一个客户端。右边的这一大堆都可以看成是Server(MySQL的服务端),我们将Server在细分为sql层和存储引擎层。
大数据老哥
2022-04-07
8040
建设数据中台到底有什么用~~
说到数据中台,大家肯定都不陌生,自从它突然在大数据圈走红之后,如果聊天中不提到数据中台,就好像落伍了。那么到底什么是数据中台?数据中台有哪些应用价值?又是如何建设的呢?
大数据老哥
2022-04-07
1.3K0
二万字讲解HiveSQL技术原理、优化与面试
编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:
大数据老哥
2022-04-07
9730
10 分钟彻底理解 Redis 的持久化和主从复制~
Redis作为一个键值对内存数据库(NoSQL),数据都存储在内存当中,在处理客户端请求时,所有操作都在内存当中进行,如下所示:
大数据老哥
2022-04-07
4180
大厂数据中台建设(建议收藏)
快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面:数据开发工程师则首先根据业务需求开发好高质量的数据,通常是结构化数据(数据表);其次,开发稳定可靠的数据服务,并通过API方式交付给业务方使用。数据开发工程师有两个痛点:1)开发数据服务门槛高;2)重复开发数据服务。
大数据老哥
2022-04-07
1.2K0
万文Hive常用参数调优及优化(建议收藏)
hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数
大数据老哥
2022-04-07
1.7K0
数仓链路保障体系与数据测试方法经验分享(好文收藏)
有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商家使用。并且,每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系,作为测试如何制定质量保障策略呢?这篇文章将从:1.有赞数据链路 、2.数据层测试、 3.应用层测试、 4.后续规划这四个方面展开。
大数据老哥
2022-04-07
1.5K0
面试中经常被问到的 50 个 SQL 题,必须拿下!
组函数: 去重 distinct() 统计总数sum() 计算个数count() 平均数avg() 最大值max() 最小数min()
大数据老哥
2022-04-07
3.2K0
2022年的五个大数据发展趋势
2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式,它将帮助我们快速地、程序化地、按需地建立这些数据栈,使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此,基础设施成为构建和实施现代数据栈的一个关键因素。
大数据老哥
2022-02-17
7810
Spark重点难点 | 万字详解Spark 性能调优
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
大数据老哥
2022-02-17
5770
这8种常见的SQL错误用法,你还在用吗?
MySQL在2016年仍然保持强劲的数据库流行度增长趋势。越来越多的客户将自己的应用建立在MySQL数据库之上,甚至是从Oracle迁移到MySQL上来。但也存在部分客户在使用MySQL数据库的过程中遇到一些比如响应时间慢,CPU打满等情况。阿里云RDS专家服务团队帮助云上客户解决过很多紧急问题。现将《ApsaraDB专家诊断报告》中出现的部分常见SQL问题总结如下,供大家参考。
大数据老哥
2022-02-17
3880
数仓建模 - 维度 vs 关系
数据管理一直在演进,从早期的电子表格、蛛网系统到架构式数据仓库。发展至今以维度建模和关系建模为主,而随着互联网的发展,数据从GB到PB的裱花,企业业务迭代更新亦是瞬息万变,对维度模型的偏爱渐渐有统一互联网数仓建模标准的趋势。
大数据老哥
2022-02-17
8340
万文Elasticsearch巧妙的架构详解
本书作为 Elastic Stack 指南,关注于 Elasticsearch 在日志和数据分析场景的应用,并不打算对底层的 Lucene 原理或者 Java 编程做详细的介绍,但是 Elasticsearch 层面上的一些架构设计,对我们做性能调优,故障处理,具有非常重要的影响。
大数据老哥
2022-02-17
7090
经验分享实时数仓实战命名规范和分层设计~~
通常的命名方式是:ODS_应用系统名(或缩写)_数据库类型_(数据库名称可省略)_数据表名_加载方式(增量还是全量),表名不能太长,一般不超过30字。如:
大数据老哥
2022-02-17
4.2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档