GROUPING SETS, GROUPING__ID, CUBE, ROLLUP 这几个分析函数通常用于OLAP中, 不能累加,而且需要根据不同维度上钻和下钻的指标统计, 比如,分小时、天、月的UV数。
Hive窗口函数LAG、LEAD、FIRST_VALUE、LAST_VALUE入门
本系列博客为基于《数据可视化第二版》一书的教学资源博客。本文主要是第9章,时间趋势可视化的案例相关。
示例:实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。
Hive窗口函数GROUPING SETS、GROUPING__ID、CUBE、ROLLUP入门
其中字段意义: userid(string) month(string) count(int) 分别代表: 用户id 月份 该月访问次数 需求: 统计每个用户截止到当月为止的最大单月访问次数和累计到该月的总访问次数 最终结果为:
order by : 在同一个组内,先累加完相同createtime的pv,再累加其他createtime的pv, 比如 : 现在在表末尾加一条数据cookie1 2015-04-10 1 1,那么结果就是 :
Hive窗口函数NTILE、ROW_NUMBER、RANK、DENSE_RANK入门
修改配置文件my.cnf [root@upgrade-slave ~]# diff /tmp/old.my.cnf /tmp/new.my.cnf 11c11 < table_cache = 2048 --- > table_open_cache = 2048 18d17 < thread_concurrency = 8 22c21 < default_table_type = INNODB --- > default_storage_engine = INNODB 44c43 < myisam_recov
1. 数据准备 1 # 本地数据准备 2 [yun@mini01 hive]$ pwd 3 /app/software/hive 4 [yun@mini01 hive]$ ll /app/software/hive/t_access_times.dat 5 -rw-rw-r-- 1 yun yun 153 Jul 17 16:15 /app/software/hive/t_access_times.dat 6 [yun@mini01 hive]$ cat /app/software/hive/
新浪数据接口:http://hq.sinajs.cn/list={code}。{code}替换为股票代码,沪市股票代码加前缀sh,深市股票代码加前缀sz。
拷贝备份数据到slave [root@master-qa data]# rsync -av fullbackup/ root@192.168.1.45:/data/fullbackup/ The authenticity of host '192.168.1.45 (192.168.1.45)' can't be established. RSA key fingerprint is bf:ad:20:64:d2:9e:7d:25:a7:bd:8d:7c:a5:de:04:fc. Are you
Heartbeat是一个基于Linux开源的,被广泛使用的高可用集群系统。我们可以基于Heartbeat构建web高可用服务环境。本文在CentOS 6.5下做了一个简单示例,并对其日志进行了初步分析,供大家参考。 有关Heartbeat的相关知识,可以参考: Heartbeat 集群组件概述 Heartbeat 安装及配置 一、配置host解析及网络 ###主机名配置,与/etc/hosts中的解析两者配置保持一致 [root@orasrv1 ~]# more /etc/sysconfig/
MHA提供了3种方式用于实现故障转移,分别自动故障转移,需要启用MHA监控;在无监控的情况下的手动故障转移以及基于在线手动切换。三种方式可以应对MySQL主从故障的任意场景。本文主要描述在无监控的情形是手动实现故障转移。供大家参考。
默认将安装在 /usr/local/ssdb 目录下 [root@h101 ssdb-master]# ll /usr/local/ssdb/ total 17848 drwxrwxrwx 6 root root 4096 Nov 24 19:41 api drwxrwxrwx 2 root root 4096 Nov 24 19:41 _cpy_ drwxrwxrwx 3 root root 4096 Nov 24 19:41 deps -rwxrwxrwx 1 root root 41
MHA是众多使用MySQL数据库企业高可用的不二选择,它简单易用,功能强大,实现了基于MySQL replication架构的自动主从故障转移,本文主要描述了MHA自动切换的步骤,对切换过程做了演示以及进行了适当的分析,供大家参考和理解MHA以及MySQL的原理。
awk和sed结合起来,对于文件的横向纵向处理几乎是全方位的,可以算是文本处理中的大招了。当然awk这一强大的分本处理工具也不是浪得虚名,功能丰富,学习周期也要长些,不是一个Help文档就能说完的。学习awk可以算得上重新学习一门编程语言,因为里面的东西确实太多了。我们就按部就班,循序渐进,先来说说awk中的变量。 关于awk中的变量,有内置变量和自定义变量。 内置变量如果细分,有数据字段和数据行变量,数据变量,可能看概念不好理解。我们一个一个说明。 数据字段和数据行变量主要有 FIELDWIDTHS 会
qdownload qdownload 从七牛空间同步数据到本地,支持只同步某些前缀的文件,支持增量同步 [root@h101 qshell]# cat ccfg { "dest_dir" : "/tmp/x", "bucket" : "qiniucloud-goods", "domain" : "http://video.qiniutest.cn", "access_key" : "ELUs327kxVPJrGCXqWae9yioc0xY
今天收到3封报警邮件,从邮件内容中的报警情况来看,还是比较反常的。需要引起关注,找到原因处理。 这个库是一个历史库,库中的数据非常庞大,几十亿数据的表还是有好几个。但是访问频率很低,一般到历史库中所做的历史数据分析查询需求还是要少很多。 报警邮件如下,可以看到DB time的阀值还是很高的。 #邮件1 [DB监控系统]_testdb2_hist_p@10.12.6.18_报警 ZABBIX-监控系统: ------------------------------------ 报警内容: DB time i
由于浏览器的版本和兼容性问题,很多es6,es7的新的方法都不能使用,等到可以使用的时候,可能已经过去了很多年。Babel可以把es6,es7的新代码编译成兼容绝大多数的主流浏览器的代码。 本篇文章主要介绍在项目中如何安装配置和使用babel. 1.在项目下初始化 package.json $ npm init 2.在项目中安装babel $ npm install babel-cli --save-dev 3.安装babel插件 $ npm install babel-preset-xxxxxx --sa
最近的MHA测试过程中,碰到了mysqlbinlog客户端的版本低于服务端版本的问题。即这个错误提示:mysqlbinlog is 3.2 (included in MySQL Client 5.0 or lower), but MySQL server version is 5.6.22-log. mysqlbinlog can not parse row based events。这个应该是个比较常见的错误。主要是由于在安装Linux期间通常在自带安装mysql相关rpm包,后来又安装了高版本的mysql而引发的一些版本问题。下面是这个问题的主要描述。
MySQL MHA 在线切换是MHA除了自动监控切换换提供的另外一种方式,多用于诸如硬件升级,MySQL数据库迁移等等。该方式提供快速切换和优雅的阻塞写入,无关关闭原有服务器,整个切换过程在0.5-2s 的时间左右,大大减少了停机时间。本文演示了MHA 在线切换并给出了在线切换的基本步骤。
MHA部署及配置是否OK,我们可以借助于MHA自带的masterha_check_ssh以及masterha_check_repl脚本来检测。masterha_check_repl检测是保证MHA成功切换的重要一步。本文主要描述了masterha_check_repl这个检测脚本到底做了些什么事情。有助于更好的理解MHA的相关原理及过程等。
昨天收到一条报警短信,短信内容大体如下: Agent is Unreachable(REASON=javax.net.ssl.SSLPeerUnverifiedException:xxxx.com:cn=xxxxx).Host is unreachable. 看着短信内容,应该是agent罢工了。可能出现了网络问题。 结果不一会儿就接到了同事的电话,让我看看是不是有问题。 登录到agent所在的服务器,查看agent进程还是存在的。 这个时候尝试agent的upload操作失败,就准备重新启动一下agent
实际需求很普遍,比如求销售数据的每天与头一天的销售增长量。这里用一个汽车行驶数据来做例子: 先初始化数据: CREATE TABLE [dbo].[CarData]( [CarID] [int] NULL, [Mileage] [int] NULL, [M_year] [int] NULL, [M_Month] [int] NULL, [M_Day] [int] NULL ) ON [PRIMARY] GO INSERT [dbo].[CarData] ([CarID
安装mysql [root@slave-test src]# yum install Percona-Server-server-56 Loaded plugins: fastestmirror, refresh-packagekit, security Loading mirror speeds from cached hostfile * base: mirrors.pubyun.com * extras: mirrors.pubyun.com * updates: mirrors.pubyun.
MHA 在测试手动故障转移和在线切换的过程中,碰到了2个比较诡异的问题,在使用IP地址调用的时候均无法测试成功,出现了Detected dead master xxx does not match with specified dead master以及xxx is not alive。下面是这2个错误问题的描述及解决方案。
原因为某些参数在新的版本里已经不被支持,或者将要被废弃,或者已经改成了新的名字,解决方法是查阅文档,修改配置文件
昨晚上老同事聚会,一个同事说道一个面试问题没有一个人做出来,就是求连续日期登录次数最大的用户,同事说借助 rownumber即可求解,由于是喝酒聊天,也没有说详细的解决过程。今天早上想了下,终于想到了具体的解决思路。 登录时间里面有详细的时分秒数据,而我们的题目只要求连续的天数,所以使用DATEDIFF函数可以解决, DATEDIFF(d,LoginTime,getdate()) as diffDate , 有多个用户都在登录,因此应该以用户名为分区,登录时间为顺序来计算rownumber,因此,就是下面的
综合分析: 能够直接得出很多统计结果,count, mean, std, min, max 等
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/114122.html原文链接:https://javaforall.cn
利用sqoop eval,只需要在参数--query中指定sql语句即可对mysql执行DML操作。
Everytime I restart MySQL I have this warning:
股票收益率是反映股票收益水平的指标。投资者购买股票或债券最关心的是能获得多少收益,衡量一项证券投资收益大小以收益率来表示。反映股票收益率的高低,一般有三个指标
Pandas 是在金融建模的背景下开发的,正如你所料,它包含一组相当广泛的工具,用于处理日期,时间和时间索引数据。日期和时间数据有几种,我们将在这里讨论:
Mongo DB 是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐。Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中 每一条记录都是一个Document对象。Mongo DB最大的优势在于所有的数据持久操作都无需开发人员手动编写SQL语句,直接调用方法就可以轻松的实现CRUD操作。本文介绍了如何快速安装mongodb供大家参考。 一、安装配置mongodb Step 1: 设置系统环境及确保缺省端口27107可用 ###当前环境 # cat /etc/issue Red Hat Enterprise Linux Server release 6.5 (Santiago) # vi /etc/selinux/config SELINUX=disabled Step 2: 下载安装文件 下载地址: https://www.mongodb.org/downloads. 或者直接在命令提示符下使用curl命令下载 curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz Step 3: 解压下载的文件 # pwd /usr/local/src # tar -xvf mongodb-linux-x86_64-rhel62-3.0.6.gz ###注,本文直接从网站下载,所以文件为.gz Step 4: 复制解压文件到运行目录 # mkdir -p /var/lib/mongodb # cp -R -n /usr/local/src/mongodb-linux-x86_64-rhel62-3.0.6/. /var/lib/mongodb/ Step 5: 设置环境变量 e.g. export PATH=<mongodb-install-directory>/bin:$PATH # vi ~/.bash_profile export PATH=/var/lib/mongodb/bin:$PATH # source ~/.bash_profile Step 6: 创建数据目录 # mkdir -p /data/mongodata 二、启动及验证mongodb ###启动mongo # mongod --dbpath /data/mongodata ###以下内容为启动后输出的相关信息 2015-10-28T10:03:33.100+0800 I JOURNAL [initandlisten] journal dir=/data/mongodata/journal 2015-10-28T10:03:33.101+0800 I JOURNAL [initandlisten] recover : no journal files present, no recovery needed 2015-10-28T10:03:33.264+0800 I JOURNAL [initandlisten] preallocateIsFaster=true 2.18 2015-10-28T10:03:33.398+0800 I JOURNAL [durability] Durability thread started 2015-10-28T10:03:33.398+0800 I JOURNAL [journal writer] Journal writer thread started 2015-10-28T10:03:33.401+0800 I CONTROL [initandlisten] MongoDB starting : pid=10191 port=27017 dbpath=/data/mongodata 64-bit host=java_2 2015-10-28T10:03:33.401+0800 I CONTROL [initandlisten] ** WARNING: You are running this process as the root user, which is not recommended. 2015-10-28T10:03:33.401+0800 I CONTROL [initandlisten] 2015-10-28T10:03:33.402+0800 I CONTROL [initandlisten] 2015-10-28T10:03:33.402+0800 I CONTROL [initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/enabled is 'always'. 2015-10-28T10:03:33.
GEE数据访问链接: https://code.earthengine.google.com/?asset=users/xxc/GLC_2000_2015 1.数据产品概述 研究学者借助Google
早起导读:pandas是Python数据处理的利器,时间序列数据又是在很多场景中出现,本文来自GitHub,详细讲解了Python和Pandas中的时间及时间序列数据的处理方法与实战,建议收藏阅读。
# 基本信息 import numpy as np import pandas as pd from pandas import Series, DataFrame # 股票数据读取 import pandas_datareader as pdr # 可视化 import matplotlib.pyplot as plt import seaborn as sns #%matplotlib inline # time from datetime import datetime start = date
将timestamp(单位秒)转为UTC+8:00中国日期,主要用来检查上传策略的deadline参数
HIVE 为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)
(五)进阶技术 2. 按需装载 前面已经做了“初始装载”和“定期装载”。还有一种需要熟悉的装载类型,按需装载。所谓“按需装载”指的是,在正常调度之外,当源数据有效时或者数据仓库需要时进行装载。例如,促销销售源数据只有在促销期内有效,而在其它时间是无效的。 在“准备数据仓库模拟环境”中讨论的“生成日期维度数据”可以看做是一种按需装载。数据仓库预先装载了日期,当日期用完时,需要再次运行预装载。 本篇的主题是按需装载,首先修改数据库模式,然后在dw数据库上执行按需装载。使用促销期场景进行说明。定期装载不适合促销期场景,因为促销期数据并不是按调度装载。下面是需要装载的促销期内容,存储在名为一个promo_schedule.csv的CSV平面文件中。 PROMOTION CODE,PROMOTION NAME,START DATE,LAST DATE SO,Special Offer,2015-04-01,2015-04-10 DP,Disk Promotion,2015-05-05,2015-05-20 MS,Month Special,2015-06-01,2015-06-30 MS,Monitor Promotion,2015-07-10,2015-07-15 BS,Back to School,2015-08-10,2015-08-30 注意源数据提供了促销周期,而不是单个的促销日期。示例假设只需要装载今后新的促销数据,而在数据仓库中不需要促销期的历史数据。 修改数据库模式 图(五)- 2-1 显示了修改后的模式,date_dim表增加了promo_ind列,用来标识该日期是否为促销日期。使用清单(五)-2-1里的SQL脚本修改数据库模式。脚本中还建立了一个促销过渡表,用来装载促销期CSV文件的内容。
接着上次分享的关于数据库无法登录的原因http://blog.itpub.net/23718752/viewspace-1791089/ 其实最终还是因为在短期内生成了大量的redo,造成了频繁的日志切换,导致归档占用了大量的空间,最后无法登录,从这个层面来说,我们可以做一些工作来尽可能长时间的保留近期的归档,但是我们还可以换一个思路,那就是看看到底是什么操作生成了大量的redo,能不能试着减少redo的生成量。 一般来说,这个问题有点傻,日志肯定是记录尽可能完整的信息,这是做数据恢复的基础,我们还是不要过
服务状态 [root@h101 zk]# zookeeper-3.4.6-real/bin/zkServer.sh status JMX enabled by default Using config: /root/zk/zookeeper-3.4.6-real/bin/../conf/zoo.cfg Mode: follower [root@h101 zk]# ---------- [root@h102 zookeeper-3.4.6-real]# zookeeper-3.4.6-real/bin/zk
QuantLib是一个用于衍生品定价、分析分析的一个库,是用C++写的,通过SWING技术可以用Python调用。量化投资自古分P宗和Q宗,相比于各种量化回测平台,QuantLib无意识Q宗的宠儿。
更新slave mysql版本 [root@slave02 src]# rpm -e Percona-Server-client-51-5.1.73-rel14.11.603.rhel6.x86_64 Percona-Server-server-51-5.1.73-rel14.11.603.rhel6.x86_64 Percona-Server-shared-51-5.1.73-rel14.11.603.rhel6.x86_64 error: Failed dependencies: mysql is
写一个查询语句,将 2016 年 (TIV_2016) 所有成功投资的金额加起来,保留 2 位小数。
/* * 分析:2015年内的任意日期,即日期范围是(2015-01-01, 2015-12-31) * 可以转化为 2015-01-01 + (0, 365), * 其中,2015-01-01 就是'指定日期’; (0, 365) 就是'指定范围’ */
领取专属 10元无门槛券
手把手带您无忧上云