首页
学习
活动
专区
圈层
工具
发布

Python金融大数据分析-PCA分析

1.pandas的一个技巧     apply() 和applymap()是DataFrame数据类型的函数,map()是Series数据类型的函数。...先上点代码 import pandas as pd import pandas.io.data as web import numpy as np np.random.seed(1000) import scipy.stats...as scs import statsmodels.api as sm import matplotlib as mpl import matplotlib.pyplot as plt from sklearn.decomposition...这里,我们采用只用第一个成分去拟合以及前五个成分去拟合,发现效果好的出奇。这样我们就做到了降维的工作了。我们再来展开看一下PCA的效果。...我们看到,整体效果还是不错的,但是很显然,两边和中间总是有点问题,所以,如果我们要提高,我们可以在中间分段进行PCA,这样的话,效果应该会更加好。

1.8K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    快速入门简单线性回归 (SLR)

    简单线性回归图(青色散点为实际值,红线为预测值) statsmodels.api、statsmodels.formula.api 和 scikit-learn 的 Python 中的 SLR 今天云朵君将和大家一起学习回归算法的基础知识...什么是回归算法 回归是一种用于预测连续特征的"监督机器学习"算法。 线性回归是最简单的回归算法,它试图通过将线性方程/最佳拟合线拟合到观察数据,来模拟因变量与一个或多个自变量之间的关系。...不能拒绝零假设....,表示大部分数据点落在最佳拟合线上 # 可视化结果 plt.figure(figsize=(18, 10)) # 输入和输出值的散点图 plt.scatter(...一种统计方法,它表示有很大百分比的数据点落在最佳拟合线上。为使模型拟合良好,r²值接近1是预期的。 Adj.

    3K10

    数据分布检验利器:QQ plot

    这种可视化不仅帮助我们快速判断数据是否满足分布假设,还能为数据转换或模型选择提供重要依据,从而确保分析结果的准确性和可靠性。数据分布概念数据分布描述了数据在不同取值上的频率或概率。...它展示了数据在各个区间或类别中的分布情况,是统计和概率学中的核心概念。常见分布类型正态分布(高斯分布):对称的钟形曲线,均值、中位数、众数相等。均匀分布:所有取值在区间内概率相等。...卡方分布:由独立标准正态变量的平方和构成。t分布:类似正态分布,但尾部更厚,适用于小样本。F分布:由两个卡方分布的比值构成。什么是分位数分位数是将数据按大小排序后,分成若干等份的点。...常见的分位数包括中位数、十分位数和百分位数等。...检查残差是否符合正态分布import statsmodels.api as smimport scipy.stats as stats# 生成示例数据np.random.seed(42)X = np.random.normal

    1.5K10

    为你的数据选择合适的分布:8个实用的概率分布应用场景和选择指南

    每个都会告诉你使用场景、快速拟合方法、需要避开的坑,以及现成的代码。 伯努利分布:最基础的二元事件 点击还是不点击,欺诈还是正常,用户流失还是留存。单次试验的成功失败问题,用伯努利分布就对了。...正数且明显右偏的数据试试对数正态,或者你想直接控制均值和形状参数的话用伽马分布也行。要建模概率本身,Beta分布是唯一选择。 拟合验证的技巧 别急着套公式,先画图。...直方图能立刻告诉你数据的偏斜程度和异常情况,对数直方图对于长尾数据特别有用。 参数估计用最大似然或者矩估计都行,但是一定要用残差图和QQ图验证拟合效果。...信息准则AIC/BIC比较不同分布的优劣,或者简单点用留出集的对数似然。 最重要的是模拟验证。用拟合好的分布生成数据,看看均值、方差、分位数是不是和原始数据对得上。...总结 分布选择其实就是在讲故事,讲数据是怎么产生的。从最简单合理的故事开始,老老实实验证效果,只有数据真的需要的时候才考虑更复杂的模型。 这样做对你自己好,对业务方也好。

    35510

    机器学习统计概率分布全面总结(Python)

    例如,如果你抛硬币 10 次,你能得到的正面数可以用一个数字表示。或者篮子里有多少苹果仍然是可数的。 连续随机变量 这些是不能以离散方式表示的值。...离散分布 伯努利分布 我们只有一个试验(只有一个观察结果)和两个可能的结果。例如,抛硬币。 我们有一个真的(1)的结果和一个假的(0)的结果。假设我们接受正面为真(我们可以选择正面为真或成功)。...多个伯努利观测结果会产生二项式分布。例如,连续抛掷硬币。 试验是相互独立的。一个尝试的结果不会影响下一个。 二项式分布可以表示为 , 。 是试验次数, 是成功的概率。...两个事件不能同时发生。 如每 60 分钟接到 4 个电话。这意味着 60 分钟内通话的平均次数为 4。让我们绘制在 60 分钟内接到 0 到 10 个电话的概率。...连续分布 正态分布 最著名和最常见的分布(也称为高斯分布),是一种钟形曲线。它可以通过均值和标准差定义。正态分布的期望值是均值。 曲线对称。均值、中位数和众数相等。曲线下总面积为 1。

    1K10

    猫头虎分享:Python库 Statsmodels 的简介、安装、用法详解入门教程

    强大的数据处理能力:可以轻松处理Pandas的DataFrame对象,方便与其他数据科学工具集成。 详尽的统计输出:提供详细的回归结果、诊断信息和模型拟合的统计量。...结果解读 模型的摘要信息非常详细,包括 回归系数、 标准误差、 t值、 p值 和 置信区间 等。通过这些信息,我们可以深入了解模型的拟合情况和各个自变量的显著性。...提示:注意查看 R-squared 和 Adj. R-squared 值,它们分别表示模型的解释力和调整后的解释力,是衡量模型好坏的重要指标。 4....模型诊断 为了确保模型的有效性,我们需要进行诊断分析,Statsmodels 提供了多种诊断工具: import statsmodels.api as sm # 残差图 sm.qqplot(model.resid...模型过拟合 猫哥提醒您:避免使用过多的自变量,尤其是在数据量较小的情况下。过拟合会导致模型在训练数据上表现很好,但在新数据上效果差。

    2.7K10

    Statsmodels线性回归看特征间关系

    Statsmodels Statsmodels是Python进行拟合多种统计模型、进行统计试验和数据探索可视化的库。statsmodels包含许多经典的统计方法,但没有贝叶斯方法和机器学习模型。...import statsmodels.api as sm import statsmodels.formula.api as smf statsmodels.api x = sm.add_constant...在一个2×2的图中绘制了四幅图:"endog vs exog","残差vs exog","拟合vs exog"和"拟合+残差vs exog" fig = plt.figure(figsize=(15,8...回归图像解释 "Y和拟合x"图绘制了因变量相对于预测值与置信区间。图中直线关系在表明开盘价与收盘价是线性正相关的,例如当一个变量增加时另一个变量也增加。...Scikit-learn 中,我们可以通过 PolynomialFeatures() 类自动产生多项式特征矩阵。

    4K20

    如何知道一个变量的分布是否为高斯分布?

    让我们画出Iris 数据变量的直方图。 X.hist(figsize=(10,10)) ? 上面的直方图显示变量0和1接近于高斯分布(1似乎是最接近的)。而3和4看起来完全不是高斯的。...需要注意的是,直方图可能会产生误导(具体可参考我们以前的文章)。 方法二:密度图(KDE图) 密度图是绘制变量分布的另一种方法。它们与直方图类似,但与直方图相比,它们能更清楚地显示变量的分布情况。...方法五:Kolmogorov-Smirnov检验 Kolmogorov-Smirnov检验是一项拟合优度的统计检验。此测试比较两个分布(在这种情况下,两个分布之一是高斯分布)。...Kolmogorov-Smirnov检验期望输入变量具有理想的正态分布。 方法六:D’Agostino和Pearson的法 此方法使用偏度和峰度测试正态性。...该检验的零假设是,分布是从正态分布中得出的。 在Python中,可以使用“ scipy.stats”模块的“ normaltest”功能执行此测试,如下所示。

    2.3K10

    【时序预测】一文梳理时间序列预测——ARMA模型

    scipy.stats as scs scs.probplot(data, sparams=(data.mean(), data.std()), plot=pp_ax) ACF图检验 自相关系数和之后阶数之间的关系图...补充2:最简约的模型是指数据拟合的非常好,与此同时使用最少的参数。使用较少参数的合理的拟合,是估计的一般原则;一个极其过参数化的模型并没有告诉我们很多关于生成数据的过程和时间的性质。...补充3:AIC不能给出模型阶的相合估计,即当样本容量趋于无穷大时,AIC准则确定的模型阶数不能收敛到真实阶,会比真实阶更高。BIC准则弥补了这一缺陷,且可由贝叶斯理论推导出,也叫BSC准则。...只有在比较有相同数目的解释变量的现行模型时才可以使用R2,由于比较模型的滞后阶数不同,不能用R2。而比较拟合模型与真实数据之间的均方误差也可以选择最优的模型。...如果拟合模型未能通过检验,说明模型不够有效,通常需要选择其他模型重新拟合。 此外,还可以对模型的参数进行显著性检验。

    19.9K75

    Python金融大数据分析-正态性检验

    import numpy as np np.random.seed(1000) import scipy.stats as scs import statsmodels.api as sm import...1.0 M = 50 I = 250000 paths = gen_path(S0,r,sigma,T,M,I) plt.plot(paths[:,:10]) plt.show() 然后,大家就可以看到和昨天和像的一幕了...我们能看到下面这样的效果。 ? 只知道这点,其实我们不知道这是不是正态分布,所以我们就把他画出来和真正的正态分布比较呗。...这个正态分布的假设检验的零假设当然就是分布是正态分布的。结果我们发现,p-value很大,所以我们不能拒绝原假设。...当然,这一块逻辑是存在一定缺陷的,也就是说,我们不能拒绝原假设,但是统计意义是,其实我们并不能直接接受这就是正态分布这一零假设了,所以通常我们都需要配上QQ图来说明。

    1.8K10

    深度好文 | 探索 Scipy 与统计分析基础

    Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,而这些功能都是我们在之后进行数据分析需要的。...Scatter plot 散点图 散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。...地位:是统计方法(描述性统计和推断性统计) 中推断性统计(参数估计和假设检验)的两大方法之一。 应用:常用于产品生产中,产品质量的检验等问题上。...假设检验的过程 (1)提出假设 (2)确定适当的检验统计量 (3)规定显著性水平 (4)计算检验统计量的值 (5)作出统计决策 Alpha: 显著性水平是估计总体参数落在某一区间内,可能犯错误的概率。...False 单侧检验 mu = df['Returns'].mean() sigma = df['Returns'].std(ddof=1) n = df['Returns'].shape[0] 确定适当的检验统计量

    3.4K30

    Python数据统计完全指南:从入门到实战

    Python数据统计涵盖了从数据获取、预处理到分析和可视化的全过程,以下是一份从入门到实战的完全指南: 环境配置与基础库介绍 安装必要库:Python数据统计常用的库有pandas、numpy、matplotlib...数据可视化 使用Matplotlib和Seaborn:Matplotlib是Python的基础绘图库,Seaborn是在Matplotlib基础上进行了高级封装。...统计建模 假设检验:使用scipy.stats模块进行假设检验,如stats.ttest_ind(group1, group2)进行独立样本T检验。...回归分析:使用statsmodels进行回归分析,如import statsmodels.api as sm; X = sm.add_constant(data['independent']); model...实战案例 可以通过实际的案例来巩固所学知识,如对某电商平台的销售数据进行分析,包括销售额的趋势分析、不同地区的销售情况对比、商品类别与销售额的相关性分析等;或者对某社交媒体的文本数据进行分析,如用户评论的情感分析

    18810

    Python数据统计完全指南:从入门到实战

    Python数据统计涵盖了从数据获取、预处理到分析和可视化的全过程,以下是一份从入门到实战的完全指南:环境配置与基础库介绍安装必要库:Python数据统计常用的库有​​pandas​​、​​numpy​​...数据可视化使用Matplotlib和Seaborn:​​Matplotlib​​是Python的基础绘图库,​​Seaborn​​是在​​Matplotlib​​基础上进行了高级封装。...统计建模假设检验:使用​​scipy.stats​​模块进行假设检验,如​​stats.ttest_ind(group1, group2)​​进行独立样本T检验。...回归分析:使用​​statsmodels​​进行回归分析,如​​import statsmodels.api as sm; X = sm.add_constant(data['independent']...实战案例可以通过实际的案例来巩固所学知识,如对某电商平台的销售数据进行分析,包括销售额的趋势分析、不同地区的销售情况对比、商品类别与销售额的相关性分析等;或者对某社交媒体的文本数据进行分析,如用户评论的情感分析

    19610

    一种有效自由度的python实现与双尾t检验测试

    版本:python3.7 数据:随机生成的正态分布数组 �eff≈1�+2�∑�=1��−�����(�)���(� 这里 N 是样本大小,ρXX (j) 和 ρYY (j) 分别是两个采样时间序列...X 和 Y 在时间滞后 j 处的自相关。...第二项 �∑�=1��−�����(�) 是关于自相关系数的求和部分,其中 是一种加权系数,用于调整每个时间滞后的贡献,\rho_{xx}(j)\rho_{yy}(j) 表示X和Y在时间滞后j处的自相关系数的乘积...通过估计有效样本量,我们可以更准确地考虑到自相关性的影响,并进行统计推断和假设检验等分析。...compute_equation(N, xx, yy) print(result) 0.006419097817664573 sm.tsa.acf import numpy as np import statsmodels.api

    46311

    深度好文 | 探索 Scipy 与统计分析基础

    Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,而这些功能都是我们在之后进行数据分析需要的。...,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。...形状和类型 一致的数组。...假设检验的过程 (1)提出假设 (2)确定适当的检验统计量 (3)规定显著性水平 (4)计算检验统计量的值 (5)作出统计决策 Alpha: 显著性水平是估计总体参数落在某一区间内,可能犯错误的概率。...False 单侧检验 mu = df['Returns'].mean() sigma = df['Returns'].std(ddof=1) n = df['Returns'].shape[0] 确定适当的检验统计量

    4.5K20
    领券