Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hadoop离线数据分析平台实战——330会话分析Hourly分析Hadoop离线数据分析平台实战——330会话分析Hourly分析

Hadoop离线数据分析平台实战——330会话分析Hourly分析Hadoop离线数据分析平台实战——330会话分析Hourly分析

作者头像
Albert陈凯
发布于 2018-04-08 03:41:55
发布于 2018-04-08 03:41:55
9410
举报
文章被收录于专栏:Albert陈凯Albert陈凯

Hadoop离线数据分析平台实战——330会话分析Hourly分析

项目进度

模块名称

完成情况

用户基本信息分析(MR)�

未完成

浏览器信息分析(MR)

未完成

地域信息分析(MR)

未完成

外链信息分析(MR)

未完成

用户浏览深度分析(Hive)

未完成

订单分析(Hive)

未完成

事件分析(Hive)

未完成

模块介绍

Hourly分析指的是按照小时分析数据, 在本次项目中,只分析活跃用户、会话个数以及会话长度这三个指标的数据。 我们通过修改现有的job来达到完成hourly分析数据统计的目标。 分别通过在active user和sessions这两个job中添加数据可以达到我们的分析要求。

计算规则

hourly分析分为hourly active user分析、hourly sessions分析以及hourly sessions length分析, 分别计算各个小时的活跃用户、会话个数以及会话长度来进行展示操作。 最终数据保存:stats_hourly表中,每个小时的数据保存到对应列中。 涉及到其他表有dimension_platform、dimension_date、dimension_kpi。

编码步骤

  1. 修改Active user的mapreduce代码,添加统计hourly active user的代码。
  2. 修改Sessions的mr代码,添加统计hourly Sessions和hourly sessions length的代码。
  3. 测试
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.09.03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析
Hadoop离线数据分析平台实战——360地域信息分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 地域信息分析规则 在地域信息分析模块中, 我们只统计活跃用户、总会话数以及跳出会话个数这三个指标的信息, 那么我看将代码写出之前的模式,一个分析指标写一个m
Albert陈凯
2018/04/08
7780
Hadoop离线数据分析平台实战——290活跃用户分析Hadoop离线数据分析平台实战——290活跃用户分析
Hadoop离线数据分析平台实战——290活跃用户分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 和分析新增用户一样,活跃用户也需要在用户基本信息分析模块和浏览器分析模块中展示,因此也可以将其写成一个mapreduce任务。 计算规则 acti
Albert陈凯
2018/04/08
8620
Hadoop离线数据分析平台实战——300活跃会员分析Hadoop离线数据分析平台实战——300活跃会员分析
Hadoop离线数据分析平台实战——300活跃会员分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 活跃会员的统计和活跃用户统计类似, 区别只是在于从不同的角度来进行分析访问网站的用户数量。 活跃用户统计是根据我们在cookie中保存的uui
Albert陈凯
2018/04/08
9120
Hadoop离线数据分析平台实战——400用户浏览深度分析Hadoop离线数据分析平台实战——400用户浏览深度分析
Hadoop离线数据分析平台实战——400用户浏览深度分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 用户浏览深度分析中,通过pv值来表示用户的浏览深度, 分别从两个不同的角度来展示浏览深度,分别为会话和用户。 会话是指,每个pv阶段对应的会话个数
Albert陈凯
2018/04/08
7030
Hadoop离线数据分析平台实战——370外链信息分析Hadoop离线数据分析平台实战——370外链信息分析
Hadoop离线数据分析平台实战——370外链信息分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 外链信息分析规则 和地域信息分析一样,在外链分析系统中, 我们也只是统计活跃用户、总会话以及跳出会话这三个指标的数据。 其中活跃用户和总会话个数和地域分析一样
Albert陈凯
2018/04/08
8400
Hadoop离线数据分析平台实战——340浏览器PV分析Hadoop离线数据分析平台实战——340浏览器PV分析
Hadoop离线数据分析平台实战——340浏览器PV分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 在浏览器信息分析模块中除了用户、会员和会话的分析外, 还有pv的分析,pv的计算可以代表网站的流量值, 也能够表示网站对用户的吸引程度,如果用
Albert陈凯
2018/04/08
7120
Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析
Hadoop离线数据分析平台实战——280新增用户和总用户分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 业务总述 在本次项目中只有两个地方需要新用户数据和总用户数据, 分别为用户基本信息分析模块和浏览器分析模块, 它们的区别主要就是统计分析的维度不
Albert陈凯
2018/04/08
1.2K0
# Hadoop离线数据分析平台实战——230项目数据存储结构设计Hadoop离线数据分析平台实战——230项目数据存储结构设计
Hadoop离线数据分析平台实战——230项目数据存储结构设计 数据存储设计 在本次项目中设计到数据存储的有三个地方: 第一个就是将原始的日志数据按天保存到hdfs文件系统中; 第二个就是将etl解析后的数据保存到hbase中; 第三个就是将分析结果保存到mysql数据库中。 其中存储到hbase和mysql的这两个过程需要设计具体的存储结构。 HBase表结构设计 由于我们需要按天进行数据分析, 所以我们的hbase的rowkey中必须包含时间戳或者我们一天的数据就建立一个表。 这里我们采用在
Albert陈凯
2018/04/08
1.1K0
Hadoop离线数据分析平台实战——410事件分析Hadoop离线数据分析平台实战——410事件分析
Hadoop离线数据分析平台实战——410事件分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 事件分析我们主要只是分析事件的触发次数, 通过查看事件的触发次数我们可以得到事件转换率或者用户会此类事件的兴趣所在之处以及不喜之处。 计算规则 计算event
Albert陈凯
2018/04/08
9580
Hadoop离线数据分析平台实战——320会话分析Hadoop离线数据分析平台实战——320会话分析
Hadoop离线数据分析平台实战——320会话分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 会话分析主要同时计算会话个数和会话长度, 主要应用在用户基本信息分析模块和浏览器信息分析模块这两部分。 会话个数就是计算u_sd的唯一个数,长度就
Albert陈凯
2018/04/08
9000
Hadoop离线数据分析平台实战——350公用代码重构Hadoop离线数据分析平台实战——350公用代码重构
Hadoop离线数据分析平台实战——350公用代码重构 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 MR程序公用代码重构 公用代码主要包括: Runner类中的参数处理代码,以及hbase的scan对象创建相关代码公用。 Mapper类中获取hbase的val
Albert陈凯
2018/04/08
9040
Hadoop离线数据分析平台实战——380MapReduce程序优化Hadoop离线数据分析平台实战——380MapReduce程序优化
Hadoop离线数据分析平台实战——380MapReduce程序优化 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。 甚至是在有限的机器条件下,能够支持运行足够多的mr程序。 说的直接一点就是:调优
Albert陈凯
2018/04/08
7810
Hadoop离线数据分析平台实战——310新增会员和总会员分析Hadoop离线数据分析平台实战——310新增会员和总会员分析
Hadoop离线数据分析平台实战——310新增会员和总会员分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 新增会员统计类似新增用户统计,也是统计新增u_mid的个数, 在新增用户统计中,我们是统计launch事件中,uuid的唯一个数, 那
Albert陈凯
2018/04/08
9620
Hadoop离线数据分析平台实战——420订单分析Hadoop离线数据分析平台实战——420订单分析
Hadoop离线数据分析平台实战——420订单分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 完成 订单分析(Hive) 未完成 事件分析(Hive) 完成 模块介绍 订单分析分别分析订单的数量和订单的金额, 以及将订单分为总订单、 支付成功订单以及退款订单三种类型的数据, 通过这六个分析指标的数据我们可以指定网站的订单情
Albert陈凯
2018/04/08
1.1K0
大数据技术之_18_大数据离线平台_04_数据分析 + Hive 之 hourly 分析 + 常用 Maven 仓库地址
通过表结构可以发现,只要维度id确定了,那么 new_install_users 也就确定了。
黑泽君
2019/04/25
8620
大数据技术之_18_大数据离线平台_04_数据分析 + Hive 之 hourly 分析 + 常用 Maven 仓库地址
Hadoop离线数据分析平台实战——480外链数据展示Hadoop离线数据分析平台实战——480外链数据展示
Hadoop离线数据分析平台实战——480外链数据展示 项目进度 模块名称 完成情况 1. 程序后台框架搭建 完成 2. 用户基本信息展示 完成 3. 浏览器信息展示 完成 4. 地域信息展示 完成 5. 外链信息展示 未完成 6. 用户浏览深度展示 未完成 7. 事件数据展示 未完成 8. 订单数据展示 未完成 模块介绍 外链数据展示主要包括两个页面, 分别为用户外链偏好结果展示(活跃用户数)以及跳出率分析图表。 采用js获取后台json数据的方式进行数
Albert陈凯
2018/04/08
1.2K0
Hadoop离线数据分析平台实战——470地域信息数据展示Hadoop离线数据分析平台实战——470地域信息数据展示
Hadoop离线数据分析平台实战——470地域信息数据展示 项目进度 模块名称 完成情况 1. 程序后台框架搭建 完成 2. 用户基本信息展示 完成 3. 浏览器信息展示 完成 4. 地域信息展示 未完成 5. 外链信息展示 未完成 6. 用户浏览深度展示 未完成 7. 事件数据展示 未完成 8. 订单数据展示 未完成 模块介绍 地域信息数据展示包括两个界面, 分别为活跃用户地域分布以及跳出率分析。 采用js获取后台json数据的方式进行数据的请求, 在
Albert陈凯
2018/04/08
8780
Hadoop离线数据分析平台实战——490用户浏览深度数据展示Hadoop离线数据分析平台实战——490用户浏览深度数据展示
Hadoop离线数据分析平台实战——490用户浏览深度数据展示 项目进度 模块名称 完成情况 1. 程序后台框架搭建 完成 2. 用户基本信息展示 完成 3. 浏览器信息展示 完成 4. 地域信息展示 完成 5. 外链信息展示 完成 6. 用户浏览深度展示 未完成 7. 事件数据展示 未完成 8. 订单数据展示 未完成 模块介绍 用户浏览深度数据展示主要包含一个页面, 在这个页面中通过分别显示用户角度的浏览深度和会话角度的浏览深度来进行数据展示。 采用js
Albert陈凯
2018/04/08
8370
Hadoop离线数据分析平台实战——510订单数据展示Hadoop离线数据分析平台实战——510订单数据展示
Hadoop离线数据分析平台实战——510订单数据展示 项目进度 模块名称 完成情况 1. 程序后台框架搭建 完成 2. 用户基本信息展示 完成 3. 浏览器信息展示 完成 4. 地域信息展示 完成 5. 外链信息展示 完成 6. 用户浏览深度展示 完成 7. 事件数据展示 完成 8. 订单数据展示 未完成 模块介绍 订单数据展示主要包括一个页面, 通过选择不同的currency type和payment type来展示不同的数据, 主要包括展示订单数量、
Albert陈凯
2018/04/08
1.1K0
大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型
  明确项目到底需要做什么,以及最终做成什么样子,需求分析不明确,项目周期就不明朗,项目完成度无法把控,技术分控无法实现,而且也无法了解项目发展的主体方向。其中最令程序员头痛的是,需求在某个开发周期中,不停的频繁变更。项目完成效率降低。
黑泽君
2019/04/22
1.7K0
大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型
推荐阅读
Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析
7780
Hadoop离线数据分析平台实战——290活跃用户分析Hadoop离线数据分析平台实战——290活跃用户分析
8620
Hadoop离线数据分析平台实战——300活跃会员分析Hadoop离线数据分析平台实战——300活跃会员分析
9120
Hadoop离线数据分析平台实战——400用户浏览深度分析Hadoop离线数据分析平台实战——400用户浏览深度分析
7030
Hadoop离线数据分析平台实战——370外链信息分析Hadoop离线数据分析平台实战——370外链信息分析
8400
Hadoop离线数据分析平台实战——340浏览器PV分析Hadoop离线数据分析平台实战——340浏览器PV分析
7120
Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析
1.2K0
# Hadoop离线数据分析平台实战——230项目数据存储结构设计Hadoop离线数据分析平台实战——230项目数据存储结构设计
1.1K0
Hadoop离线数据分析平台实战——410事件分析Hadoop离线数据分析平台实战——410事件分析
9580
Hadoop离线数据分析平台实战——320会话分析Hadoop离线数据分析平台实战——320会话分析
9000
Hadoop离线数据分析平台实战——350公用代码重构Hadoop离线数据分析平台实战——350公用代码重构
9040
Hadoop离线数据分析平台实战——380MapReduce程序优化Hadoop离线数据分析平台实战——380MapReduce程序优化
7810
Hadoop离线数据分析平台实战——310新增会员和总会员分析Hadoop离线数据分析平台实战——310新增会员和总会员分析
9620
Hadoop离线数据分析平台实战——420订单分析Hadoop离线数据分析平台实战——420订单分析
1.1K0
大数据技术之_18_大数据离线平台_04_数据分析 + Hive 之 hourly 分析 + 常用 Maven 仓库地址
8620
Hadoop离线数据分析平台实战——480外链数据展示Hadoop离线数据分析平台实战——480外链数据展示
1.2K0
Hadoop离线数据分析平台实战——470地域信息数据展示Hadoop离线数据分析平台实战——470地域信息数据展示
8780
Hadoop离线数据分析平台实战——490用户浏览深度数据展示Hadoop离线数据分析平台实战——490用户浏览深度数据展示
8370
Hadoop离线数据分析平台实战——510订单数据展示Hadoop离线数据分析平台实战——510订单数据展示
1.1K0
大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型
1.7K0
相关推荐
Hadoop离线数据分析平台实战——360地域信息分析Hadoop离线数据分析平台实战——360地域信息分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档