阅读全文:http://tecdat.cn/?p=17375
相关视频
EVT的介绍
单变量情况
假设存在归一化常数an> 0和bn使得:
根据极值类型定理(Fisher和Tippett,1928年),G必须是Fr'echet,Gumbel或负Weibull分布。Jenkinson(1955)指出,这三个分布可以合并为一个参数族:广义极值(GEV)分布。GEV具有以下定义的分布函数:
根据这一结果,Pickands(1975)指出,当阈值接近目标变量的端点µend时,阈值阈值的标准化超额的极限分布是广义Pareto分布(GPD)。也就是说,如果X是一个随机变量,则:
基本用法
随机数和分布函数
首先,让我们从基本的东西开始。将R用于随机数生成和分布函数。
> rgpd(5, loc = 1, scale = 2, shape = -0.2)
\[1\] 1.523393 2.946398 2.517602 1.199393 2.541937
> rgpd(6, c(1, -5), 2, -0.2)
\[1\] 1.3336965 -4.6504749 3.1366697 -0.9330325 3.5152161 -4.4851408
> rgpd(6, 0, c(2, 3), 0)
\[1\] 3.1139689 6.5900384 0.1886106 0.9797699 3.2638614 5.4755026
> pgpd(c(9, 15, 20), 1, 2, 0.25)
\[1\] 0.9375000 0.9825149 0.9922927
> qgpd(c(0.25, 0.5, 0.75), 1, 2, 0)
\[1\] 1.575364 2.386294 3.772589
> dgpd(c(9, 15, 20), 1, 2, 0.25)
\[1\] 0.015625000 0.003179117 0.001141829
使用选项lower.tail = TRUE或lower.tail = FALSE分别计算不超过或超过概率;
指定分位数是否超过概率分别带有选项lower.tail = TRUE或lower.tail = FALSE;
指定是分别使用选项log = FALSE还是log = TRUE计算密度或对数密度。
阈值选择图
此外,可以使用Fisher信息来计算置信区间。
> x
> par(mfrow = c(1, 2))
结果如图所示。我们可以清楚地看到,将阈值设为0.98是合理的选择。
可以将置信区间添加到该图,因为经验均值可以被认为是正态分布的(中心极限定理)。但是,对于高阈值,正态性不再成立,此外,通过构造,该图始终会收敛到点(xmax; 0)。
这是另一个综合示例。
> x
plot(x, u.range = c(1, quantile(x, probs = 0.995)), col = L-矩图
L-矩是概率分布和数据样本的摘要统计量。它们类似于普通矩
U {Y2 > u2}: 500
Estimates
scale1 shape1 scale2 shape2 alpha
0.9814 0.2357 0.5294 -0.2835 0.9993
Standard Errors
领取专属 10元无门槛券
私享最新 技术干货