开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

"make_blobs“和"discrete_scatter”是什么意思？

"make_blobs"和"discrete_scatter"是Python中机器学习库scikit-learn中的函数或方法。

"make_blobs"函数用于生成具有指定特征和标签的模拟数据集。它通常用于聚类分析和数据可视化。该函数的主要参数包括样本数、特征数、聚类中心数量等。它返回一个包含样本特征和对应标签的数组。详情请参考腾讯云机器学习服务中的相关产品：腾讯云机器学习。
"discrete_scatter"函数是一个用于绘制散点图的方法。它接受一对特征值和对应的分类标签作为输入，并将不同分类的样本用不同的颜色表示在图上。这个方法在可视化分类算法的结果时特别有用。详情请参考腾讯云数据分析服务中的相关产品：腾讯云数据分析。

注意：上述产品链接是为了提供相关产品的信息，具体选择使用哪种云计算品牌商需要根据实际需求和情况进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

快速入门Python机器学习（28）

凝聚聚类(agglomerative clustering)指的是许多基于相同原则构建的聚类算法，这一原则是：算法首先声明每个点是自己的簇，然后合并两个最相似的簇，直到满足某种停止准则为止

01

聚类-KMeans算法（图解算法原理）

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，也就是将数据分成K个簇的算法，其中K是用户指定的。

02

A.机器学习入门算法（四）: 基于支持向量机的分类预测

本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc

01

机器学习-KMeans算法（图解算法原理）

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，也就是将数据分成K个簇的算法，其中K是用户指定的。

04

kmeans算法初步

版权声明：本文为博主原创文章，欢迎转载。 https://blog.csdn.net/chengyuqiang/article/details/88812958

03

聚类

KMeans()类提供了fit(), predict()等8个方法供数据拟合、预测等使用。在利用肘部法则确定K值时需要建立聚类效果的指标，这时长长会用到求解两个向量之间距离的cdist()方法。格式如下：

02

教程 | 如何在Python中用scikit-learn生成测试数据集

选自MACHINE LEARNING MASTERY 作者：Jason Brownlee 机器之心编译参与：程耀彤、李泽南测试数据集是小型的专用数据集，它可以让你测试一个机器学习算法或测试工具。数据集中的数据有完整的定义（例如线性或非线性）使你可以探索特定的算法行为。scikit-learn Python 库提供一套函数，用于从可配置测试问题中生成样本来进行回归和分类。在本教程中，你将学习测试问题及如何在 Python 中使用 scikit-learn 进行测试。完成本教程后，你将知道：如何生成多

sklearn调包侠之K-Means

k-均值算法（K-Means算法）是一种典型的无监督机器学习算法，用来解决聚类问题。

02

Scikit-learn 秘籍第三章使用距离向量构建模型

这一章中，我们会涉及到聚类。聚类通常和非监督技巧组合到一起。这些技巧假设我们不知道结果变量。这会使结果模糊，以及实践客观。但是，聚类十分有用。我们会看到，我们可以使用聚类，将我们的估计在监督设置中“本地化”。这可能就是聚类非常高效的原因。它可以处理很大范围的情况，通常，结果也不怎么正常。

01

吴恩达《Machine Learning》精炼笔记 8：聚类 KMeans 及其 Python实现

比如下面的数据中，横纵轴都是xx，没有标签（输出yy）。在非监督学习中，我们需要将一系列无标签的训练数据，输入到一个算法中，快速这个数据的中找到其内在数据结构。

01

快速入门Python机器学习（四）

同样在第一个表达式中k1…kn-1叫做斜率，b叫做截距(即x1= x2=…=xn-1=0的时候，直线与y轴的交叉点)

04

吴恩达笔记8-KMeans

本周的主要知识点是无监督学习中的两个重点：聚类和降维。本文中首先介绍的是聚类中的K均值算法，包含：

01

scikit-learn生成数据集

为了方便用户学习机器学习和数据挖掘的方法，机器学习库scikit-learn的数据集模块sklearn.datasets提供了20个样本生成函数，为分类、聚类、回归、主成分分析等各种机器学习方法生成模拟的样本集。

02

Using KMeans to cluster data使用K均值来聚类数据

Clustering is a very useful technique. Often, we need to divide and conquer when taking actions. Consider a list of potential customers for a business. A business might need to group customers into cohorts, and then departmentalize responsibilities for these cohorts.Clustering can help facilitate the clustering process.KMeans is probably one of the most well-known clustering algorithms and, in a larger sense, one of the most well-known unsupervised learning techniques.

01

机器学习——KMeans

导入类库 1 from sklearn.cluster import KMeans 2 from sklearn.datasets import make_blobs 3 import numpy as np 4 import matplotlib.pyplot as plt 　　KMeans算法的过程：(假如有两类) 随机选择两个点作为聚类的中心计算所有点距离两个中心的距离，选择距离较近的点作为类别。（例如：距离蓝点近，类别是蓝色）计算已经分好类的各组数据的平均值，使用各组数据的平均值中心作为新的中心

02

快速入门Python机器学习（11）

朴素贝叶斯可以分为贝努利贝叶斯(BernoulliNB)、高斯贝叶斯(GaussianNB)和多项式贝叶斯(MultinomailNB)。贝努利贝叶斯(BernoulliNB)又可以分为二项分布和0-1分布。我们首先来介绍贝努利贝叶斯(BernoulliNB)。

02

探索Python中的聚类算法：K-means

在机器学习领域中，聚类算法被广泛应用于数据分析和模式识别。K-means 是其中一种常用的聚类算法，它能够将数据集分成 K 个不同的组或簇。本文将详细介绍 K-means 算法的原理、实现步骤以及如何使用 Python 进行编程实践。

01

机器学习之KNN最邻近分类算法[通俗易懂]

KNN（K-Nearest Neighbor）最邻近分类算法是数据挖掘分类（classification）技术中最简单的算法之一，其指导思想是”近朱者赤，近墨者黑“，即由你的邻居来推断出你的类别。

01

异常检测算法比较

算法：异常检测算法比较是包括Robust covariance、One-Class SVM、Isolation Forest和Local Outlier Factor的参数根据实际数据选择的异常检测的结果比较。

05

机器学习算法的随机数据生成

在学习机器学习算法的过程中，我们经常需要数据来验证算法，调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能，我们可以自己生成适合某一种模型的数据，用随机数据来做清洗，归一化，转换，然后选择模型与算法做拟合和预测。下面对scikit-learn和numpy生成数据样本的方法做一个总结。

02

通透！十大聚类算法全总结！！

这些聚类算法各有优缺点，适用于不同类型的数据和不同的应用场景。选择合适的聚类算法通常取决于具体的需求、数据的特性和计算资源。

01

sklearn提供的自带的数据集(make_blobs)

这些数据集都可以在官网上查到，以鸢尾花为例，可以在官网上找到demo，http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

03

快速入门Python机器学习（27）

stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略。

02

sklearn中Logistics Regression的coef_和intercept_的具体意义

该文介绍了逻辑回归中coef_和intercept_的含义，以及如何使用它们。

06

数据分析与数据挖掘 - 09邻近算法

邻近算法又叫做K临近算法或者KNN(K-NearestNeighbor)，是机器学习中非常重要的一个算法，but它简单得一塌糊涂，其核心思想就是样本的类别由距离其最近的K个邻居投票来决定。现在假设我们已经有一个已经标记好的数据集，也就是说我们已经知道了数据集中每个样本所属于的类别。这个时候我们拥有一个未标记的数据样本，我们的任务是预测出来这个数据样本所属于的类别。显然邻近算法是属于监督学习(Supervised Learning)的一种，它的原理是计算这个待标记的数据样本和数据集中每个样本的距离，取其距离最近的k个样本，那么待标记的数据样本所属于的类别，就由这距离最近的k个样本投票产生。在这个过程中，有一个动作是标记数据集，这一点在企业中一般是有专门人来负责标记数据的。

02

使用Python实现K均值聚类算法

K均值（K-Means）算法是一种常用的聚类算法，它将数据集分成K个簇，每个簇的中心点代表该簇的质心，使得每个样本点到所属簇的质心的距离最小化。在本文中，我们将使用Python来实现一个基本的K均值聚类算法，并介绍其原理和实现过程。

01

sklearn自带的数据集以及生成数据

load_boston([return_X_y]) 加载波士顿房价数据；用于回归问题

02

快速入门Python机器学习（29）

DBSCAN(Density-based spatial clustering of application with nose)：基于密度的有噪音应用空间聚类。

01

确定聚类算法中的超参数

聚类是无监督学习的方法，它用于处理没有标签的数据，功能强大，在参考资料 [1] 中已经介绍了几种常用的算法和实现方式。其中 K-均值（K-Means）算法是一种常用的聚类方法，简单且强大。

02

集成学习-Bagging和Boosting算法

集成学习（ensemble learning）博采众家之长，通过构建并结合多个学习器来完成学习任务。“三个臭皮匠顶个诸葛亮”，一个学习器（分类器、回归器）效果可能并不好，通过结合若干学习器取得更好的效果，进一步提高精度等。

04

探索Python中的聚类算法：层次聚类

在机器学习领域中，层次聚类是一种常用的聚类算法，它能够以层次结构的方式将数据集中的样本点划分为不同的簇。层次聚类的一个优势是它不需要事先指定簇的数量，而是根据数据的特性自动形成簇的层次结构。本文将详细介绍层次聚类算法的原理、实现步骤以及如何使用 Python 进行编程实践。

01

谱聚类

算法：谱聚类是首先根据给定的样本数据集定义描述成对数据点相似度的亲合矩阵，然后计算矩阵的特征值和特征向量，最后选择合适的特征向量聚类不同的数据点。

02

在深度学习中使用Bagging集成模型

集成是一种机器学习概念，使用相同的学习算法训练多个模型。Bagging是一种减少预测方差的方法，通过使用重复组合生成多组原始数据，从数据集生成额外的训练数据。Boosting 是一种基于最后分类调整观测值权重的迭代技术。如果一条观察数据被错误地分类，它会试图增加这个观察数据的权重。总体而言，Boosting 建立了强大的预测模型。

03

机器学习中最常见的四种分类模型

举一个简单易懂的例子：将电子邮件分类为“ 垃圾邮件 ”或“ 非垃圾邮件”（二分类的典型特征“非此即彼”，关于二分类，后文会涉及）。

02

Using KMeans for outlier detection使用KMeans进行异常值检测

In this chapter, we'll look at both the debate and mechanics of KMeans for outlier detection.It can be useful to isolate some types of errors, but care should be taken when using it.

03

使用scikit-learn构建数据集

数据是机器学习的必备条件，输入数据的质量高低，是影响机器学习模型效果的决定性因素条件之一。对于机器学习的学习者而言，拥有一个数据集来练手是第一步。在scikit-learn中，提供了多种构建数据的方法

02

Python 数据科学手册 5.7 支持向量机

支持向量机（SVM）是一种特别强大且灵活的监督算法，用于分类和回归。在本节中，我们将探索支持向量机背后的直觉，及其在分类问题中的应用。

02

py 决策树①

它总是在沿着特征做切分。随着层层递进，这个划分会越来越细。虽然生成的树不容易给用户看，但是数据分析的时候，通过观察树的上层结构，能够对分类器的核心思路有一个直观的感受。举个简单的例子，当我们预测一个孩子的身高的时候，决策树的第一层可能是这个孩子的性别。男生走左边的树进行进一步预测，女生则走右边的树。这就说明性别对身高有很强的影响。

03

神经网络

scikit-learn提供了MLPClassifier()和MLPRegression()两个类，分别用于神经网络分类和回归任务。多层感知器(MLP) 的监督学习算法，通过在数据集特征 X = {x1, x2, …, xm} 和标签y上训练来学习函数：MLPClassifier()：

02

快速入门Python机器学习（九）

所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

01

如何使用scikit-learn在Python中生成测试数据集

测试数据集是一个微型的手工数据集，你可以用它来测试机器学习算法或者工具。

06

K-means算法

聚类（Clustering）是一种无监督学习(unsupervised learning)，简单地说就是把相似的对象归到同一簇中。簇内的对象越相似，聚类的效果越好。

02

聚类模型--K 均值

聚类模型--K 均值 0.引入依赖 import numpy as np import matplotlib.pyplot as plt # 这里直接 sklearn 里的数据集 from sklearn.datasets.samples_generator import make_blobs 1.数据的加载和预处理 x, y = make_blobs(n_samples=100, centers=6, random_state=1234, cluster_std=0.6) # x # array([[-

03

机器学习笔记之聚类算法层次聚类 Hierarchical Clustering

层次聚类算法(Hierarchical Clustering)将数据集划分为一层一层的clusters，后面一层生成的clusters基于前面一层的结果。层次聚类算法一般分为两类：

04

机器学习测试笔记（10）——K邻近算法

我们谈起机器学习经常会听到监督学习和非监督学习，它们的区别在哪里呢？监督学习是有标签的，而非监督学习是没有标签的。比如有一批酒，我们知道里面包括红酒和白酒，算法f可以用于鉴别某一个酒是否为红酒和白酒，这时候算法f就称作为监督学习，红酒、白酒即为标签。如果现在另有一批酒，我们知道里面包括不同品种的酒，但是不知道有几类，算法g可以把相同类别的酒归为一类，不同类别的酒归为不同的类（比如：红酒、白酒、啤酒、米酒…）, 算法g就称作为非监督学习。在监督学习中我们称作“分类”，在非监督学习中我们称作“聚类”。本文提到的K邻近算法属于监督学习内的“分类”算法。

01

机器学习(7) -- k-means 聚类

根据大家的提议，从今天起每次算法介绍完之后会给大家一个用python编写的实例刚打架参考 Clustering 　9. Clustering 　　　　9.1 Supervised Learning and Unsupervised Learning 　　　　9.2 K-means algorithm 　　　　9.3 Optimization objective 　　　　9.4 Random Initialization 　　　　9.5 Choosing the Number of Clusters 9

05

智能学习：无监督学习技术在自动化处理中的革新

无监督学习作为机器学习的一个重要分支，在自动化处理领域中扮演着越来越重要的角色。它不需要外部的标签信息，能够从数据本身发现模式和结构，为自动化系统提供了强大的自适应和学习能力。本文将探讨无监督学习技术的基本原理、在自动化处理中的应用案例、面临的挑战以及未来的发展方向。

00

估算聚类正确性&使用小批量KMeans来处理更多数据

We talked a little bit about assessing clusters when the ground truth is not known. However, we have not yet talked about assessing KMeans when the cluster is known. In a lot of cases, this isn't knowable; however, if there is outside annotation, we will know the ground truth,or at least the proxy, sometimes.

02

机器学习-12-sklearn案例01-初级

网上有很多关于sklearn的学习教程，最好的教程就是官方文档。官方文档地址：https://scikit-learn.org/stable/

00

快速入门Python机器学习（12）

看来，对三组数据高斯贝叶斯算法在三个数据中最好，我们让他与以前学习过的分类算法做个比较。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭