文章/答案/技术大牛

发布

社区首页 >专栏 >大数据教育数仓之在线教育项目回顾

大数据教育数仓之在线教育项目回顾

Maynor

发布于 2023-07-28 07:49:47

8260

文章被收录于专栏：最新最全的大数据技术体系最新最全的大数据技术体系

大数据教育数仓之在线教育项目回顾

01：在线教育项目需求

目标：掌握在线教育项目需求
实施
- 常规的需求：通过对数据进行数据分析处理，得到一些指标，来反映一些事实，支撑运营决策
- 行业：在线教育行业
- 产品：课程
- 需求：提高学员报名的转换率，实现可持续化的运营发展
  - 需求1：分析学员从访问到报名每个环节的留存率和流失率，发现每个环节存在的问题，解决问题，提高报名率
    - 访问分析
    - 咨询分析
    - 意向分析
    - 报名分析
    - 通过各个环节的分析，来发现每个环节流失原因，解决问题，实现提高每一步转化率
  - 需求2：持续化发展需要构建良好的产品口碑，把控学员学习质量：通过对考试、考勤、作业做管理和把控
    - 考勤分析
小结
- 掌握在线教育项目需求
面试：项目介绍

02：需求主题划分

目标：掌握在线教育中需求主题的划分
实施
- 数据仓库的数据管理划分
  - 数据仓库【DW】：存储了整个公司所有数据
    - 数据集市/主题域【DM】：按照一定的业务需求进行划分：部门、业务、需求
      - 主题：每一个主题就面向最终的一个业务分析需求
- 在线教育中的需求主题
  - 数据仓库：业务系统数据【客服系统、CRM系统、学员管理系统】
    - 业务数据仓库：结构化数据
  - 数据集市/主题域
    - 运营管理集市/运营域
    - 销售管理集市/销售域
    - 学员管理集市/用户域
    - 产品管理集市/产品域
    - 广告域
    - ……
  - 数据主题
    - 来源分析主题、访问分析主题、咨询分析主题
    - 销售分析主题、线索分析主题、意向分析主题、报名分析主题
    - 考勤分析主题、考试分析主题、作业分析主题
    - 产品访问主题、产品销售主题、产品付费主题
    - 表名：层 _ 【域】 _ 主题 _ 维度表
小结
- 掌握在线教育中需求主题的划分
- 面试：项目中划分了哪些主题域以及有哪些主题?

03：数据来源

目标：掌握在线教育平台的数据来源
实施
- 访问分析主题、咨询分析主题
  - 客服系统：客服系统数据库
  - 需求：统计不同维度下的访问用户数、咨询用户数
    - 指标：UV、PV、IP、Session、跳出率、二跳率
    - 维度：时间、地区、来源渠道、搜索来源、来源页面
  - web_chat_ems
  - web_chat_text_ems
- 线索分析主题、意向分析主题、报名分析主题
  - CRM系统：营销系统数据库
  - 需求：统计不同维度下意向用户个数、报名用户个数、有效线索个数
    - 维度：时间、地区、来源渠道、线上线下、新老学员、校区、学科、销售部门
  - customer_relationship：意向与报名信息表
  - customer_clue：线索信息表
  - customer：学员信息表
  - itcast_school：校区信息表
  - itcast_subject：学科信息表
  - employee：员工信息表
  - scrm_deparment：部门信息表
  - itcast_clazz：报名班级信息表
- 考勤分析主题
  - 数据来源：学员管理系统
  - 需求：统计不同维度下学员考勤指标：出勤人数、出勤率、迟到、请假、旷课
  - tbh_student_signin_record：学员打卡信息表
  - student_leave_apply：学员请假信息表
  - tbh_class_time_table：班级作息时间表
  - course_table_upload_detail：班级排课表
  - class_studying_student_count：班级总人数表
小结
- 记住核心的表与字段
- 面试：数据来源是什么？

04：数仓设计

目标：掌握业务分析主题中每个主题数仓的实现流程
实施

小结
- 掌握业务分析主题中每个主题数仓的实现流程
- 面试：分层怎么设计的？
  - ODS：原始数据层：存储原始数据
  - DWD：明细数据层：ETL以后的明细数据
  - DWM：轻度汇总层：对主题的事务事实进行构建，关联所有事实表获取主题事实，构建一些基础指标
  - DWS：汇总数据层：构建整个主题域的事实和维度的宽表
  - APP：拆分每个主题不同维度的子表
  - DIM ：维度数据层：所有维度表

05：技术架构

目标：掌握整个项目的技术架构
实施

小结
- 掌握整个项目的技术架构
- 面试：项目介绍或者项目的技术架构？

06：项目优化

目标：掌握Hive的常见优化

实施

属性优化

本地模式

hive.exec.mode.local.auto=true;

JVM重用

mapreduce.job.jvm.numtasks=10

推测执行

mapreduce.map.speculative=true
mapreduce.reduce.speculative=true
hive.mapred.reduce.tasks.speculative.execution=true

Fetch抓取

hive.fetch.task.conversion=more

并行执行

hive.exec.parallel=true
hive.exec.parallel.thread.number=16

压缩

hive.exec.compress.intermediate=true
hive.exec.orc.compression.strategy=COMPRESSION
mapreduce.map.output.compress=true
mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.DefaultCodec

矢量化查询

hive.vectorized.execution.enabled = true;
hive.vectorized.execution.reduce.enabled = true;

零拷贝

hive.exec.orc.zerocopy=true;

关联优化

hive.optimize.correlation=true;

CBO优化器

hive.cbo.enable=true;
hive.compute.query.using.stats=true;
hive.stats.fetch.column.stats=true;
hive.stats.fetch.partition.stats=true;

小文件处理

#设置Hive中底层MapReduce读取数据的输入类：将所有文件合并为一个大文件作为输入
hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
#如果hive的程序，只有maptask，将MapTask产生的所有小文件进行合并
hive.merge.mapfiles=true;
hive.merge.mapredfiles=true;
hive.merge.size.per.task=256000000;
hive.merge.smallfiles.avgsize=16000000;

索引优化

hive.optimize.index.filter=true

谓词下推PPD

hive.optimize.ppd=true;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4UGgQtXE-1690355726417)(J:/baidudownload/09-第九阶段spark项目-一站式制造/Day5_数仓事实层DWB层构建/02_随堂笔记/Day5_数仓事实层DWB层构建.assets/image-20210518184328346.png)]

Inner Join和Full outer Join，条件写在on后面，还是where后面，性能上面没有区别
Left outer Join时，右侧的表写在on后面，左侧的表写在where后面，性能上有提高
Right outer Join时，左侧的表写在on后面、右侧的表写在where后面，性能上有提高
如果SQL语句中出现不确定结果的函数，也无法实现下推

Map Join

hive.auto.convert.join=true
hive.auto.convert.join.noconditionaltask.size=512000000

Bucket Join

hive.optimize.bucketmapjoin = true;
hive.auto.convert.sortmerge.join=true;
hive.optimize.bucketmapjoin.sortedmerge = true;
hive.auto.convert.sortmerge.join.noconditionaltask=true;

Task内存

mapreduce.map.java.opts=-Xmx6000m;
mapreduce.map.memory.mb=6096;
mapreduce.reduce.java.opts=-Xmx6000m;
mapreduce.reduce.memory.mb=6096;

缓冲区大小

mapreduce.task.io.sort.mb=100

Spill阈值

mapreduce.map.sort.spill.percent=0.8

Merge线程

mapreduce.task.io.sort.factor=10

Reduce拉取并行度

mapreduce.reduce.shuffle.parallelcopies=8
mapreduce.reduce.shuffle.read.timeout=180000

SQL优化

核心思想：先过滤后处理
- where和having使用
- join中on和where使用
- 将大表过滤成为小表再join

设计优化

分区表：减少了MapReduce输入，避免不需要的过滤
分桶表：减少了比较次数，实现数据分类，大数据拆分，构建Map Join
文件存储：优先选用列式存储：parquet、orc

小结

熟练掌握Hive中的优化
面试：项目中做了哪些优化？Hive做了哪些优化？

07：项目问题

目标：掌握Hive的常见优化

实施

内存问题：现象程序运行失败

OOM：out of memory

堆内存不足：给Task进程分配更多的内存

mapreduce.map.java.opts=-Xmx6000m;
mapreduce.map.memory.mb=6096;
mapreduce.reduce.java.opts=-Xmx6000m;
mapreduce.reduce.memory.mb=6096;

物理内存不足

允许NodeManager使用更多的内存
硬件资源可以扩充：扩充物理内存
调整代码：基于分区处理、避免Map Join

虚拟内存不足：调整虚拟内存的比例，默认为2.1

数据倾斜问题：程序运行时间长，一直卡在99%或者100%

现象

运行一个程序，这个程序的某一个Task一直在运行，其他的Task都运行结束了，进度卡在99%或者100%

基本原因

基本原因：这个ReduceTask的负载要比其他Task的负载要高
- ReduceTask的数据分配不均衡

根本原因：分区的规则

默认分区：根据K2的Hash值取余reduce的个数
- 优点：相同的K2会由同一个reduce处理
- 缺点：可能导致数据倾斜

数据倾斜的场景

group by / count(distinct)
join

解决方案

group by / count(distinct)

开启Combiner

hive.map.aggr=true

随机分区

方式一：开启参数

hive.groupby.skewindata=true

开启这个参数以后，底层会自动走两个MapReduce
第一个MapReduce自动实现随机分区
第二个MapReduce做最终的聚合

方式二：手动指定

distribute by rand()：将数据写入随机的分区中

distribute by 1 ：将数据都写入一个分区

join

方案一：尽量避免走Reduce Join

Map Join：尽量将不需要参加Join的数据过滤，将大表转换为小表
构建分桶Bucket Map Join

方案二：skewjoin：避免数据倾斜的Reduce Join过程

    --开启运行过程中skewjoin
    set hive.optimize.skewjoin=true;
    --如果这个key的出现的次数超过这个范围
    set hive.skewjoin.key=100000;
    --在编译时判断是否会产生数据倾斜
    set hive.optimize.skewjoin.compiletime=true;
    --不合并，提升性能
    set hive.optimize.union.remove=true;
    --如果Hive的底层走的是MapReduce，必须开启这个属性，才能实现不合并
    set mapreduce.input.fileinputformat.input.dir.recursive=true;

小结

掌握Hive中常见的内存溢出及数据倾斜问题
面试：数据倾斜怎么解决？
- 调大分区个数：重分区
- Join时候，可以将小的数据实现广播
- 自定义分区规则:RDD五大特性：对于二元组类型的RDD，可以指定分区器
  - reduceByKey(partitionClass = HashPartition)

技术面试：理论为主