实验背景
大家好,『WedO实验君』又来了。来来来,继续上一个实验的主题。本实验整理的主题为聚类算法篇。
这里补充下聚类的概念。
俗话说的:“物以类聚,人以群分”。聚类是一个把数据对象划分成子集的过程,每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。聚类成为自动分类,聚类可以自动的发现这些分组,这是突出的优点。
聚类无需样本标注,无监督聚类,主要用来研究数据自身的特点。
顺便把上一次实验的分类的概念一起补充下。
Classification (分类),对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习)。
,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。
经典聚类主要包括
Kmeans聚类
混合高斯模型
DBSCAN密度聚类算法
实验器材
● python
● sklearn
● pandas
实验内容
1. 实验数据说明
为了说明算法,采用著名的iris数据集合为实验数据。
fromsklearnimportcluster, datasets
importpandasaspd
importnumpyasnpfromsklearn
importpreprocessing
iris=datasets.load_iris()
X_iris=iris.data
y_iris=iris.target
iris.target_names
Out[9]:
array(['setosa', 'versicolor', 'virginica'],
dtype='|S10')
In [10]:
data=pd.DataFrame(iris.data, columns=iris.feature_names)
Out[10]:
2.各个单分类器说明
实验结语
本实验介绍了各个聚类的基本思想以及重要参数,已经python 的sklearn 算法在iris数据的实际应用。
实验预告:一句话说机器学习算法和调参-集成方法篇
领取专属 10元无门槛券
私享最新 技术干货