Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >主成分分析、K均值聚类R语言实现小实例

主成分分析、K均值聚类R语言实现小实例

作者头像
用户7010445
发布于 2020-03-03 07:01:29
发布于 2020-03-03 07:01:29
1.5K00
代码可运行
举报
运行总次数:0
代码可运行
数据集

3 种葡萄酒;测量13个指标;总共178个样本

数据集下载链接 https://acadgildsite.s3.amazonaws.com/wordpress_images/r/wineDataset_Kmeans/Wine.csv

主成分分析
主成分分析是一种旋转数据集的方法,旋转后的特征在统计上不相关。在做完这种旋转后,通常是根据新特征对解释数据的重要性来选择他的一个子集。
--《Python机器学习基础教程》
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df<-read.csv("Wine.csv",header = T)
head(df)
df$Customer_Segment<-as.factor(df$Customer_Segment)
summary(df)
dim(df)
winepca<-prcomp(df[,1:13],scale. = T)
library(factoextra)
fviz_eig(winepca,addlabels = T)
fviz_pca_ind(winepca,col.ind = df$Customer_Segment,
             addEllipses = T,geom=("point"),legend.title="")

image.png

image.png

K均值聚类

原文链接 Analyzing Wine dataset using K-means Clustering

K均值聚类是最简单也是最常用的聚类算法之一。他试图找到代表数据特定区域的簇中心。算法交替执行以下两个步骤:将每个数据点分配给最近的簇中心,然后将每个簇中心设置为所分配的所有数据点的平均值。如果簇的分配不在发生变化,那么算法结束。

--《Python机器学习基础教程》

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(factoextra)
df<-read.csv("Wine.csv",header = T)
winescale<-scale(df[,1:13])
head(winescale)
fviz_nbclust(winescale,kmeans,method='wss')+
  geom_vline(xintercept=3,linetype=5,col="darkred")
winekmeans<-kmeans(winescale,3,nstart=25)
winekmeans
winekmeans$centers
winekmeans$size
fviz_cluster(object=winekmeans,data=winescale,ellipse.type = "norm",
             geom = ("point"),palette='jco',main="",
             ggtheme=theme_minimal())

image.png

image.png

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
聚类分析和主成分分析
示例数据一:现有16种饮料的热量、咖啡因含量、钠含量和价格的数据,根据这4个变量对16饮料进行聚类
生信技能树
2019/12/23
2.7K0
聚类分析和主成分分析
R语言做K均值聚类的一个简单小例子
k均值聚类是一种比较常用的聚类方法,R语言里做k均值聚类比较常用的函数是kmeans(),需要输入3个参数,第一个是聚类用到的数据,第二个是你想将数据聚成几类k,第三个参数是nstarthttps://www.datanovia.com/en/lessons/k-means-clustering-in-r-algorith-and-practical-examples/
用户7010445
2020/09/29
2.3K0
无监督学习 聚类分析②划分聚类分析
同样是聚类分析,上一次介绍的是层次聚类分法,这种方法输出的聚类树状图是其最大的优点,但是层次分析法的缺点就在于适合的样本数比较小,大概在150个左右。所以,当我们面临更大的数据时,划分聚类法就是更好的选择,虽然没有树状聚类图,却而代之的是圈型的聚类图。
用户1359560
2018/08/27
8360
无监督学习 聚类分析②划分聚类分析
【R语言】factoextra生成发表级PCA主成分分析图(三)
观察仔细的小伙伴可能发现,在上面这张图里面有三个点比其他点要大一些,其实这三个点是三个组的中心点。那么我们怎么去除各组的中心点呢?其实只需要修改mean.poin这个参数就可以了
生信交流平台
2022/09/21
5570
【R语言】factoextra生成发表级PCA主成分分析图(三)
无监督学习 聚类分析③
可以看到有16个指标支持最佳聚类数目为3,5个指标支持聚类数为2,所以该方法推荐的最佳聚类数目为3.
用户1359560
2018/08/27
7590
无监督学习 聚类分析③
「Workshop」第十期:聚类
聚类分析的思想:对于有p个变量的数据集来说,每个观测值都是p维空间中的一个点,所以属于同一类的点在空间中的距离应该显著小于属于不同类的点之间的距离
王诗翔呀
2020/07/29
2.9K0
「Workshop」第十期:聚类
R语言中的主成分方法:PCA分析和可视化实用指南
主成分分析(PCA)允许我们总结和可视化包含多个相互关联的定量变量描述的个体/观察的数据集中的信息。每个变量都可以被视为不同的维度。如果你的数据集中有3个以上的变量,那么可视化多维超空间可能会非常困难。
简说基因
2025/03/13
3241
R语言中的主成分方法:PCA分析和可视化实用指南
ggplot2画点和连线展示主成分分析的结果简单小例子
https://github.com/Tom-Jenkins/utility_scripts
用户7010445
2021/03/14
1.3K0
R语言主成分分析可视化(颜值高,很详细)
网络上很多R语言教程都是基于R语言实战进行修改,今天为大家介绍更好用的R包,在之前聚类分析中也经常用到:factoextra和factoMineR,关于主成分分析的可视化,大家比较常见的可能是ggbiplot,这几个R包都挺不错,大家可以比较下。
医学和生信笔记
2023/02/14
1.2K0
R语言主成分分析可视化(颜值高,很详细)
Python中用K-均值聚类来探索顾客细分
在这篇文章中,我要谈的东西是相对简单,但却是对任何业务都很重要的:客户细分。客户细分的核心是能够识别不同类型的客户,然后知道如何找到更多这样的人,这样你就可以…你猜对了,获得更多的客户!在这篇文章中,我将详细介绍您如何可以使用K-均值聚类来完成一些客户细分方面的探索。
数据科学社区
2018/07/30
1.4K0
Python中用K-均值聚类来探索顾客细分
ggplot2画点和分组椭圆展示主成分分析(PCA)结果的简单小例子
这个图来自链接 http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials/
用户7010445
2021/03/14
5.7K1
K均值算法R语言代码
今天给大家简单的介绍经典的聚类学习算法,K均值算法。 K均值算法的R语言代码 # 加载R包 library(tidyverse) # data manipulation library(cluster) # clustering algorithms library(factoextra) # clustering algorithms & visualization # 数据准备 df <- USArrests # 数据缺失值处理 df <- na.omit(df) # 删除含有缺失值的样本
生信交流平台
2020/08/04
1.4K0
主成分分析 factoextra
factoextra是一个R软件包,可以轻松提取和可视化探索性多变量数据分析的输出,其中包括: 主成分分析(PCA),用于通过在不丢失重要信息的情况下减少数据的维度来总结连续(即定量)多变量数据中包含的信息。 对应分析(CA),它是适用于分析由两个定性变量(或分类数据)形成的大型列联表的主成分分析的扩展。 多重对应分析(MCA),它是将CA改编为包含两个以上分类变量的数据表格。 多因素分析(MFA)专用于数据集,其中变量按组(定性和/或定量变量)组织。 分层多因素分析(HMFA):在数据组织为分
用户1359560
2018/08/27
1.9K0
主成分分析  factoextra
R语言聚类分析(1)
关于更加精细化的细节修改,下次再介绍。或者可以借助其他R包快速绘制好看的聚类分析图形。
医学和生信笔记
2022/11/15
5790
R语言聚类分析(1)
高维数据 | R语言绘图基础之主成分分析
在视觉性方面,人类普遍能够感知的是二维和三维空间。对于高维数据的可视化是将高维数据投影到二维或三维空间,去掉冗余属性,同时保留高维空间的数据和特征。说白了,高维数据的可视化就是使用降维度方法,主要分成线性和非线性两大类,关于非线性的非度量多维尺度分析NMDS见往期文章非度量多维尺度分析(NMDS),关于线性的PCA方法,见往期文章PCA做图最佳搭档-ggbiplot,本文主要针对迷弥小粉丝关于绘制线性PCA图数据处理过程遇到的问题进行记录。
黑妹的小屋
2020/08/06
2K0
PCA原理及实现-R
PCA是一种无参数的数据降维方法,常用的机器学习算法一种,这篇文章主要从PCA应用于解释两个方面介绍。关于PCA原理,详情这里
Jamesjin63
2022/10/25
4170
PCA原理及实现-R
R语言中的划分聚类模型
原文链接:http://tecdat.cn/?p=6443 划分聚类 是用于基于数据集的相似性将数据集分类为多个组的聚类方法。 分区聚类,包括: K均值聚类 (MacQueen 1967),其中每个聚
拓端
2020/12/30
7170
R语言中的划分聚类模型
【R语言】factoextra生成发表级PCA主成分分析图(一)
今天我们来给大家介绍另一个做PCA分析并绘图的R包factoextra,很多SCI文章中都用到了这个R包。换句话说这个R包画出来的PCA图是发表级的。
生信交流平台
2022/09/21
1.1K0
【R语言】factoextra生成发表级PCA主成分分析图(一)
R语言PCA分析_r语言可视化代码
如果不对数据进行scale处理,本身数值大的基因对主成分的贡献会大。如果关注的是变量的相对大小对样品分类的贡献,则应SCALE,以防数值高的变量导入的大方差引入的偏见。但是定标(scale)可能会有一些负面效果,因为定标后变量之间的权重就是变得相同。如果我们的变量中有噪音的话,我们就在无形中把噪音和信息的权重变得相同,但PCA本身无法区分信号和噪音。在这样的情形下,我们就不必做定标。
全栈程序员站长
2022/11/07
2.8K0
R语言PCA分析_r语言可视化代码
PCA主成分分析实战和可视化 | 附R代码和测试数据
一文看懂PCA主成分分析中介绍了PCA分析的原理和分析的意义(基本简介如下,更多见博客),今天就用数据来实际操练一下。
生信宝典
2018/12/29
4.6K0
PCA主成分分析实战和可视化 | 附R代码和测试数据
推荐阅读
相关推荐
聚类分析和主成分分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验