大数据解决方案

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。

两万字从面试角度全面详解Kafka

Kylin、Druid、ClickHouse是目前主流的OLAP引擎，本文尝试从数据模型和索引结构两个角度，分析这几个引擎的核心技术，并做简单对比。在阅读本文之前希望能对Kylin、Druid、ClickHouse有所理解。

Kylin、Druid、ClickHouse该如何选择？

一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。

Flink经典的生产问题和解决方案~(建议收藏)

         数仓在建设过程中，对数据的组织管理上，不仅要根据业务进行纵向的主题域划分，还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析，希望对你有帮助。

数仓建设 | ODS、DWD、DWM等理论实战（强烈建议收藏~）

Flink四大基石分别是：Time （时间）、Window（窗口）、State （状态）、Checkpoint（检查点）。

全网最全系列 | Flink原理+知识点总结（4万字、41知识点，66张图）

ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程

万字长文带你了解ETL和数据建模～

左边的client可以看成是客户端，客户端有很多，像我们经常你使用的CMD黑窗口，像我们经常用于学习的WorkBench，像企业经常使用的Navicat工具，它们都是一个客户端。右边的这一大堆都可以看成是Server(MySQL的服务端)，我们将Server在细分为sql层和存储引擎层。

两万字SQL优化大全

说到数据中台，大家肯定都不陌生，自从它突然在大数据圈走红之后，如果聊天中不提到数据中台，就好像落伍了。那么到底什么是数据中台？数据中台有哪些应用价值？又是如何建设的呢？

建设数据中台到底有什么用~~

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

二万字讲解HiveSQL技术原理、优化与面试

Redis作为一个键值对内存数据库(NoSQL)，数据都存储在内存当中，在处理客户端请求时，所有操作都在内存当中进行，如下所示：

10 分钟彻底理解 Redis 的持久化和主从复制~

快手是一家数据驱动的公司，数据扮演了非常重要的角色，而数据的生产加工主要依靠数据开发工程师，其工作内容会涉及多个方面：数据开发工程师则首先根据业务需求开发好高质量的数据，通常是结构化数据（数据表）；其次，开发稳定可靠的数据服务，并通过API方式交付给业务方使用。数据开发工程师有两个痛点：1）开发数据服务门槛高；2）重复开发数据服务。

大厂数据中台建设（建议收藏）

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

万文Hive常用参数调优及优化（建议收藏）

有赞数据报表中心为商家提供了丰富的数据指标，包括30+页面，100+数据报表以及400+不同类型的数据指标，它们帮助商家更合理、科学地运营店铺，同时也直接提供分析决策方法供商家使用。并且，每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系，作为测试如何制定质量保障策略呢？这篇文章将从：1.有赞数据链路 、2.数据层测试、 3.应用层测试、 4.后续规划这四个方面展开。

数仓链路保障体系与数据测试方法经验分享（好文收藏）

组函数: 去重 distinct()  统计总数sum()   计算个数count()  平均数avg()  最大值max() 最小数min()

面试中经常被问到的 50 个 SQL 题，必须拿下！

 2021年，我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念（尽管仍处于早期阶段）与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式，它将帮助我们快速地、程序化地、按需地建立这些数据栈，使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此，基础设施成为构建和实施现代数据栈的一个关键因素。

2022年的五个大数据发展趋势

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

Spark重点难点 | 万字详解Spark 性能调优

MySQL在2016年仍然保持强劲的数据库流行度增长趋势。越来越多的客户将自己的应用建立在MySQL数据库之上，甚至是从Oracle迁移到MySQL上来。但也存在部分客户在使用MySQL数据库的过程中遇到一些比如响应时间慢，CPU打满等情况。阿里云RDS专家服务团队帮助云上客户解决过很多紧急问题。现将《ApsaraDB专家诊断报告》中出现的部分常见SQL问题总结如下，供大家参考。

这8种常见的SQL错误用法，你还在用吗？

         数据管理一直在演进，从早期的电子表格、蛛网系统到架构式数据仓库。发展至今以维度建模和关系建模为主，而随着互联网的发展，数据从GB到PB的裱花，企业业务迭代更新亦是瞬息万变，对维度模型的偏爱渐渐有统一互联网数仓建模标准的趋势。

数仓建模 - 维度 vs 关系

本书作为 Elastic Stack 指南，关注于 Elasticsearch 在日志和数据分析场景的应用，并不打算对底层的 Lucene 原理或者 Java 编程做详细的介绍，但是 Elasticsearch 层面上的一些架构设计，对我们做性能调优，故障处理，具有非常重要的影响。

万文Elasticsearch巧妙的架构详解

 通常的命名方式是：ODS_应用系统名(或缩写)_数据库类型_(数据库名称可省略)_数据表名_加载方式（增量还是全量），表名不能太长，一般不超过30字。如：

经验分享实时数仓实战命名规范和分层设计~~

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据解决方案专栏，为你提供了大数据解决方案的相关文章，致力于帮助开发者快速成长与发展。

大数据解决方案

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐