文章/答案/技术大牛

发布

社区首页 >专栏 >【数据挖掘】K-Means 一维数据聚类分析示例

【数据挖掘】K-Means 一维数据聚类分析示例

韩曙亮

发布于 2023-03-27 11:52:39

8670

文章被收录于专栏：韩曙亮的移动开发专栏韩曙亮的移动开发专栏

文章目
K-Means 一维数据计算示例数据样本及初始值
K-Means 一维数据距离计算方式
K-Means 算法步骤
第一次迭代 : 步骤 ( 1 ) 计算距离
第一次迭代 : 步骤 ( 2 ) 聚类分组
第一次迭代 : 步骤 ( 3 ) 计算中心值
第二次迭代 : 步骤 ( 1 ) 计算距离
第二次迭代 : 步骤 ( 2 ) 聚类分组
第二次迭代 : 步骤 ( 3 ) 计算中心值
第三次迭代 : 步骤 ( 1 ) 计算距离
第三次迭代 : 步骤 ( 2 ) 聚类分组
第三次迭代 : 步骤 ( 3 ) 计算中心值
第四次迭代 : 步骤 ( 1 ) 计算距离
第四次迭代 : 步骤 ( 2 ) 聚类分组

K-Means 一维数据计算示例数据样本及初始值

1 . 数据集样本 :

$14$

个人 , 根据其年龄 , 将数据集分成

$3$

组 ;

2 . 选定初始的中心值 :

$1$

$20$

$40$

;

K-Means 一维数据距离计算方式

1 . 距离公式选择 : 一维数据 直接使用 曼哈顿距离 计算即可 , 二维数据 需要使用 欧几里得距离 计算 ;

2 . 曼哈顿距离 : 这里直接使用曼哈顿距离 , 即样本值 , 直接相减得到的值取绝对值 , 就是曼哈顿距离 ;

K-Means 算法步骤

K-Means 算法步骤 : 给定数据集

$X$

, 该数据集有

$n$

个样本 , 将其分成

$K$

个聚类 ;

① 中心点初始化 : 为

$K$

个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

② 计算距离 : 计算

$n$

个对象与

$K$

个中心点的距离 ; ( 共计算

$n \times K$

次 )

③ 聚类分组 : 每个对象与

$K$

个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;

④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;

⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点和分组经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;

第一次迭代 : 步骤 ( 1 ) 计算距离

计算

$14$

个样本与

$3$

个中心点的距离 :

① 表格含义 : 如下

$P_1$

与

$C_1$

对应的表格位置值是

$P_1$

样本与

$C_1$

中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

② 计算方式 : 计算

$P_i$

与

$C_j$

之间的距离 , 直接将两个数值相减取平均值即可 ;

$i$

取值范围 ,

$\{1 , 2 , \cdots , 14\}$

$j$

的取值范围

$\{1 , 2, 3\}$

;

③ 计算示例 : 如

$P_3$

样本与

$C_2$

中心点的距离计算 ,

$P_3$

样本的年龄属性值是

$5$

$C_2$

中心点值为

$20$

;

$d(P_3, C_2)$

表示两个点之间的距离 ;

$d(P_3, C_2) = |5 - 20| = 15$

下表中的

$P_3$

行

$C_2$

列对应的值是

$15$

, 即上面计算出来的距离值 ;

	年龄
聚类		C 1 C_1 C1	C 2 C_2 C2	C 3 C_3 C3
中心值		1 1 1	20 20 20	40 40 40
P 1 P_{1} P1	1 1 1	0 0 0	19 19 19	39 39 39
P 2 P_2 P2	3 3 3	2 2 2	17 17 17	37 37 37
P 3 P_3 P3	5 5 5	4 4 4	15 15 15	35 35 35
P 4 P_4 P4	8 8 8	7 7 7	12 12 12	32 32 32
P 5 P_5 P5	9 9 9	8 8 8	11 11 11	31 31 31
P 6 P_6 P6	11 11 11	10 10 10	9 9 9	29 29 29
P 7 P_7 P7	12 12 12	11 11 11	8 8 8	28 28 28
P 8 P_8 P8	13 13 13	12 12 12	7 7 7	27 27 27
P 9 P_9 P9	37 37 37	36 36 36	17 17 17	3 3 3
P 10 P_{10} P10	43 43 43	42 42 42	23 23 23	3 3 3
P 11 P_{11} P11	45 45 45	44 44 44	25 25 25	5 5 5
P 12 P_{12} P12	49 49 49	48 48 48	29 29 29	9 9 9
P 13 P_{13} P13	51 51 51	50 50 50	31 31 31	11 11 11
P 14 P_{14} P14	65 65 65	64 64 64	45 45 45	25 25 25

$C_1$

$C_2$

$C_3$

中心值

$1$

$20$

$40$

$P_{1}$

$1$

$0$

$19$

$39$

$P_2$

$3$

$2$

$17$

$37$

$P_3$

$5$

$4$

$15$

$35$

$P_4$

$8$

$7$

$12$

$32$

$P_5$

$9$

$8$

$11$

$31$

$P_6$

$11$

$10$

$9$

$29$

$P_7$

$12$

$11$

$8$

$28$

$P_8$

$13$

$12$

$7$

$27$

$P_9$

$37$

$36$

$17$

$3$

$P_{10}$

$43$

$42$

$23$

$3$

$P_{11}$

$45$

$44$

$25$

$5$

$P_{12}$

$49$

$48$

$29$

$9$

$P_{13}$

$51$

$50$

$31$

$11$

$P_{14}$

$65$

$64$

$45$

$25$

第一次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为

$\{P_1 , P_2, \cdots , P_{14}\}$

这

$14$

个样本分组 :

$P_{1}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$0$

$P_1$

样本分组到

$K_1$

组 ;

$P_{2}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$2$

$P_2$

样本分组到

$K_1$

组 ;

$P_{3}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$4$

$P_3$

样本分组到

$K_1$

组 ;

$P_{4}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$7$

$P_4$

样本分组到

$K_1$

组 ;

$P_{5}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$8$

$P_5$

样本分组到

$K_1$

组 ;

$P_{6}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$9$

$P_6$

样本分组到

$K_2$

组 ;

$P_{7}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$8$

$P_7$

样本分组到

$K_2$

组 ;

$P_{8}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$7$

$P_8$

样本分组到

$K_2$

组 ;

$P_{9}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$3$

$P_9$

样本分组到

$K_3$

组 ;

$P_{10}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{3}

$C_3$

距离最近 , 距离是

3

$3$

P_{10}

$P_{10}$

样本分组到

K_{3}

$K_3$

组 ;

P_{11}

$P_{11}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{3}

$C_3$

距离最近 , 距离是

5

$5$

P_{11}

$P_{11}$

样本分组到

K_{3}

$K_3$

组 ;

P_{12}

$P_{12}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{3}

$C_3$

距离最近 , 距离是

9

$9$

P_{12}

$P_{12}$

样本分组到

K_{3}

$K_3$

组 ;

P_{13}

$P_{13}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{3}

$C_3$

距离最近 , 距离是

11

$11$

P_{13}

$P_{13}$

样本分组到

K_{3}

$K_3$

组 ;

P_{14}

$P_{14}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{3}

$C_3$

距离最近 , 距离是

25

$25$

P_{14}

$P_{14}$

样本分组到

K_{3}

$K_3$

组 ;

2 . 当前分组依据的中心点 :

{1, 20, 40}

$\{1 , 20 , 40\}$

3 . 当前分组结果 :

K_{1} = {P_{1}, P_{2}, P_{3}, P_{4}, P_{5}}

$K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}$

K_{2} = {P_{6}, P_{7}, P_{8}}

$K_2 = \{ P_{6} , P_{7} , P_{8} \}$

K_{3} = {P_{9}, P_{10}, P_{11}, P_{12}, P_{13}, P_{14}}

$K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}$

第一次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算

K_{1}

$K_1$

分组的中心值 :

K_{1} = {P_{1}, P_{2}, P_{3}, P_{4}, P_{5}}

$K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}$

, 计算过程如下 :

C_{1} = \frac{1 + 3 + 5 + 8 + 9}{5} = 5

$C_1 = \frac{1 + 3 + 5 + 8 + 9 }{5} = 5$

② 计算

K_{2}

$K_2$

分组的中心值 :

K_{2} = {P_{6}, P_{7}, P_{8}}

$K_2 = \{ P_{6} , P_{7} , P_{8} \}$

, 计算过程如下 :

C_{2} = \frac{11 + 12 + 13}{3} = 12

$C_2 = \frac{11 + 12 + 13}{3} = 12$

③ 计算

K_{3}

$K_3$

分组的中心值 :

K_{3} = {P_{9}, P_{10}, P_{11}, P_{12}, P_{13}, P_{14}}

$K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}$

, 计算过程如下 :

C_{3} = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48

$C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48$

最新计算出的

C_{1}, C_{2}, C_{3}

$C_1 , C_2 , C_3$

中心点是

{5, 12, 48}

$\{5 , 12 , 48\}$

第二次迭代 : 步骤 ( 1 ) 计算距离

计算

14

$14$

个样本与

3

$3$

个中心点的距离 :

① 表格含义 : 如下

P_{1}

$P_1$

与

C_{1}

$C_1$

对应的表格位置值是

P_{1}

$P_1$

样本与

C_{1}

$C_1$

中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

② 计算方式 : 计算

P_{i}

$P_i$

与

C_{j}

$C_j$

之间的距离 , 直接将两个数值相减取平均值即可 ;

i

$i$

取值范围 ,

{1, 2, \dots, 14}

$\{1 , 2 , \cdots , 14\}$

j

$j$

的取值范围

{1, 2, 3}

$\{1 , 2, 3\}$

;

③ 计算示例 : 如

P_{3}

$P_3$

样本与

C_{2}

$C_2$

中心点的距离计算 ,

P_{3}

$P_3$

样本的年龄属性值是

5

$5$

C_{2}

$C_2$

中心点值为

12

$12$

;

d (P_{3}, C_{2})

$d(P_3, C_2)$

表示两个点之间的距离 ;

d (P_{3}, C_{2}) = | 5 - 12 | = 7

$d(P_3, C_2) = |5 - 12| = 7$

下表中的

P_{3}

$P_3$

行

C_{2}

$C_2$

列对应的值是

7

$7$

, 即上面计算出来的距离值 ;

	年龄
聚类		C 1 C_1 C1	C 2 C_2 C2	C 3 C_3 C3
中心值		5 5 5	12 12 12	48 48 48
P 1 P_{1} P1	1 1 1	4 4 4	11 11 11	47 47 47
P 2 P_2 P2	3 3 3	2 2 2	9 9 9	45 45 45
P 3 P_3 P3	5 5 5	0 0 0	7 7 7	43 43 43
P 4 P_4 P4	8 8 8	3 3 3	4 4 4	40 40 40
P 5 P_5 P5	9 9 9	4 4 4	3 3 3	39 39 39
P 6 P_6 P6	11 11 11	6 6 6	1 1 1	37 37 37
P 7 P_7 P7	12 12 12	7 7 7	0 0 0	36 36 36
P 8 P_8 P8	13 13 13	8 8 8	1 1 1	35 35 35
P 9 P_9 P9	37 37 37	25 25 25	17 17 17	11 11 11
P 10 P_{10} P10	43 43 43	38 38 38	31 31 31	5 5 5
P 11 P_{11} P11	45 45 45	40 40 40	33 33 33	3 3 3
P 12 P_{12} P12	49 49 49	44 44 44	37 37 37	1 1 1
P 13 P_{13} P13	51 51 51	46 46 46	39 39 39	3 3 3
P 14 P_{14} P14	65 65 65	60 60 60	53 53 53	17 17 17

C_{1}

$C_1$

C_{2}

$C_2$

C_{3}

$C_3$

中心值

5

$5$

12

$12$

48

$48$

P_{1}

$P_{1}$

1

$1$

4

$4$

11

$11$

47

$47$

P_{2}

$P_2$

3

$3$

2

$2$

9

$9$

45

$45$

P_{3}

$P_3$

5

$5$

0

$0$

7

$7$

43

$43$

P_{4}

$P_4$

8

$8$

3

$3$

4

$4$

40

$40$

P_{5}

$P_5$

9

$9$

4

$4$

3

$3$

39

$39$

P_{6}

$P_6$

11

$11$

6

$6$

1

$1$

37

$37$

P_{7}

$P_7$

12

$12$

7

$7$

0

$0$

36

$36$

P_{8}

$P_8$

13

$13$

8

$8$

1

$1$

35

$35$

P_{9}

$P_9$

37

$37$

25

$25$

17

$17$

11

$11$

P_{10}

$P_{10}$

43

$43$

38

$38$

31

$31$

5

$5$

P_{11}

$P_{11}$

45

$45$

40

$40$

33

$33$

3

$3$

P_{12}

$P_{12}$

49

$49$

44

$44$

37

$37$

1

$1$

P_{13}

$P_{13}$

51

$51$

46

$46$

39

$39$

3

$3$

P_{14}

$P_{14}$

65

$65$

60

$60$

53

$53$

17

$17$

第二次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为

{P_{1}, P_{2}, \dots, P_{14}}

$\{P_1 , P_2, \cdots , P_{14}\}$

这

14

$14$

个样本分组 :

P_{1}

$P_{1}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{1}

$C_1$

距离最近 , 距离是

4

$4$

P_{1}

$P_1$

样本分组到

K_{1}

$K_1$

组 ;

P_{2}

$P_{2}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{1}

$C_1$

距离最近 , 距离是

2

$2$

P_{2}

$P_2$

样本分组到

K_{1}

$K_1$

组 ;

P_{3}

$P_{3}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{1}

$C_1$

距离最近 , 距离是

0

$0$

P_{3}

$P_3$

样本分组到

K_{1}

$K_1$

组 ;

P_{4}

$P_{4}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{1}

$C_1$

距离最近 , 距离是

3

$3$

P_{4}

$P_4$

样本分组到

K_{1}

$K_1$

组 ;

P_{5}

$P_{5}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{2}

$C_2$

距离最近 , 距离是

3

$3$

P_{5}

$P_5$

样本分组到

K_{1}

$K_1$

组 ;

P_{6}

$P_{6}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{2}

$C_2$

距离最近 , 距离是

1

$1$

P_{6}

$P_6$

样本分组到

K_{2}

$K_2$

组 ;

P_{7}

$P_{7}$

与

{C_{1}, C_{2}, C_{3}}

$\{C_1, C_2, C_3\}$

三个中心点中的

C_{2}

$C_2$

距离最近 , 距离是

0

$0$

$P_7$

样本分组到

$K_2$

组 ;

$P_{8}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$1$

$P_8$

样本分组到

$K_2$

组 ;

$P_{9}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$11$

$P_9$

样本分组到

$K_3$

组 ;

$P_{10}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$5$

$P_{10}$

样本分组到

$K_3$

组 ;

$P_{11}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$3$

$P_{11}$

样本分组到

$K_3$

组 ;

$P_{12}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$1$

$P_{12}$

样本分组到

$K_3$

组 ;

$P_{13}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$3$

$P_{13}$

样本分组到

$K_3$

组 ;

$P_{14}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$17$

$P_{14}$

样本分组到

$K_3$

组 ;

2 . 当前分组依据的中心点 :

$\{5 , 12 , 48\}$

3 . 当前分组结果 :

$K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}$

$K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}$

$K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}$

第二次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算

$K_1$

分组的中心值 :

$K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}$

, 计算过程如下 :

$C_1 = \frac{1 + 3 + 5 + 8 }{4} = 4$

② 计算

$K_2$

分组的中心值 :

$K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}$

, 计算过程如下 :

$C_2 = \frac{9 + 11 + 12 + 13}{4} = 11$

③ 计算

$K_3$

分组的中心值 :

$K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}$

, 计算过程如下 : ( 与上次对比没有变化 )

$C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48$

最新计算出的

$C_1 , C_2 , C_3$

中心点是

$\{4 , 11 , 48\}$

第三次迭代 : 步骤 ( 1 ) 计算距离

计算

$14$

个样本与

$3$

个中心点的距离 :

① 表格含义 : 如下

$P_1$

与

$C_1$

对应的表格位置值是

$P_1$

样本与

$C_1$

中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

② 计算方式 : 计算

$P_i$

与

$C_j$

之间的距离 , 直接将两个数值相减取平均值即可 ;

$i$

取值范围 ,

$\{1 , 2 , \cdots , 14\}$

$j$

的取值范围

$\{1 , 2, 3\}$

;

③ 计算示例 : 如

$P_3$

样本与

$C_2$

中心点的距离计算 ,

$P_3$

样本的年龄属性值是

$5$

$C_2$

中心点值为

$11$

;

$d(P_3, C_2)$

表示两个点之间的距离 ;

$d(P_3, C_2) = |5 - 11| = 6$

下表中的

$P_3$

行

$C_2$

列对应的值是

$6$

, 即上面计算出来的距离值 ;

	年龄
聚类		C 1 C_1 C1	C 2 C_2 C2	C 3 C_3 C3
中心值		4 4 4	11 11 11	48 48 48
P 1 P_{1} P1	1 1 1	3 3 3	10 10 10	47 47 47
P 2 P_2 P2	3 3 3	1 1 1	8 8 8	45 45 45
P 3 P_3 P3	5 5 5	1 1 1	6 6 6	43 43 43
P 4 P_4 P4	8 8 8	4 4 4	3 3 3	40 40 40
P 5 P_5 P5	9 9 9	5 5 5	2 2 2	39 39 39
P 6 P_6 P6	11 11 11	7 7 7	0 0 0	37 37 37
P 7 P_7 P7	12 12 12	8 8 8	1 1 1	36 36 36
P 8 P_8 P8	13 13 13	9 9 9	2 2 2	35 35 35
P 9 P_9 P9	37 37 37	33 33 33	26 26 26	11 11 11
P 10 P_{10} P10	43 43 43	39 39 39	32 32 32	5 5 5
P 11 P_{11} P11	45 45 45	41 41 41	34 34 34	3 3 3
P 12 P_{12} P12	49 49 49	45 45 45	38 38 38	1 1 1
P 13 P_{13} P13	51 51 51	47 47 47	40 40 40	3 3 3
P 14 P_{14} P14	65 65 65	61 61 61	54 54 54	17 17 17

$C_1$

$C_2$

$C_3$

中心值

$4$

$11$

$48$

$P_{1}$

$1$

$3$

$10$

$47$

$P_2$

$3$

$1$

$8$

$45$

$P_3$

$5$

$1$

$6$

$43$

$P_4$

$8$

$4$

$3$

$40$

$P_5$

$9$

$5$

$2$

$39$

$P_6$

$11$

$7$

$0$

$37$

$P_7$

$12$

$8$

$1$

$36$

$P_8$

$13$

$9$

$2$

$35$

$P_9$

$37$

$33$

$26$

$11$

$P_{10}$

$43$

$39$

$32$

$5$

$P_{11}$

$45$

$41$

$34$

$3$

$P_{12}$

$49$

$45$

$38$

$1$

$P_{13}$

$51$

$47$

$40$

$3$

$P_{14}$

$65$

$61$

$54$

$17$

第三次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为

$\{P_1 , P_2, \cdots , P_{14}\}$

这

$14$

个样本分组 :

$P_{1}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$3$

$P_1$

样本分组到

$K_1$

组 ;

$P_{2}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$1$

$P_2$

样本分组到

$K_1$

组 ;

$P_{3}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$1$

$P_3$

样本分组到

$K_1$

组 ;

$P_{4}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$3$

$P_4$

样本分组到

$K_1$

组 ;

$P_{5}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$2$

$P_5$

样本分组到

$K_1$

组 ;

$P_{6}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$0$

$P_6$

样本分组到

$K_2$

组 ;

$P_{7}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$1$

$P_7$

样本分组到

$K_2$

组 ;

$P_{8}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$2$

$P_8$

样本分组到

$K_2$

组 ;

$P_{9}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$11$

$P_9$

样本分组到

$K_3$

组 ;

$P_{10}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$5$

$P_{10}$

样本分组到

$K_3$

组 ;

$P_{11}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$3$

$P_{11}$

样本分组到

$K_3$

组 ;

$P_{12}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$1$

$P_{12}$

样本分组到

$K_3$

组 ;

$P_{13}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$3$

$P_{13}$

样本分组到

$K_3$

组 ;

$P_{14}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$17$

$P_{14}$

样本分组到

$K_3$

组 ;

2 . 当前分组依据的中心点 :

$\{4 , 11 , 48\}$

3 . 当前分组结果 :

$K_1 = \{ P_{1} , P_{2} , P_{3} \}$

$K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}$

$K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}$

第三次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算

$K_1$

分组的中心值 :

$K_1 = \{ P_{1} , P_{2} , P_{3} \}$

, 计算过程如下 :

$C_1 = \frac{1 + 3 + 5 }{3} = 3$

② 计算

$K_2$

分组的中心值 :

$K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}$

, 计算过程如下 :

$C_2 = \frac{8 + 9 + 11 + 12 + 13}{5} = 10$

③ 计算

$K_3$

分组的中心值 :

$K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}$

, 计算过程如下 : ( 与上次对比没有变化 )

$C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48$

最新计算出的

$C_1 , C_2 , C_3$

中心点是

$\{3 , 10 , 48\}$

第四次迭代 : 步骤 ( 1 ) 计算距离

计算

$14$

个样本与

$3$

个中心点的距离 :

① 表格含义 : 如下

$P_1$

与

$C_1$

对应的表格位置值是

$P_1$

样本与

$C_1$

中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

② 计算方式 : 计算

$P_i$

与

$C_j$

之间的距离 , 直接将两个数值相减取平均值即可 ;

$i$

取值范围 ,

$\{1 , 2 , \cdots , 14\}$

$j$

的取值范围

$\{1 , 2, 3\}$

;

③ 计算示例 : 如

$P_3$

样本与

$C_2$

中心点的距离计算 ,

$P_3$

样本的年龄属性值是

$5$

$C_2$

中心点值为

$10$

;

$d(P_3, C_2)$

表示两个点之间的距离 ;

$d(P_2, C_3) = |5 - 10| = 5$

下表中的

$P_3$

行

$C_2$

列对应的值是

$5$

, 即上面计算出来的距离值 ;

	年龄
聚类		C 1 C_1 C1	C 2 C_2 C2	C 3 C_3 C3
中心值		3 3 3	10 10 10	48 48 48
P 1 P_{1} P1	1 1 1	2 2 2	9 9 9	47 47 47
P 2 P_2 P2	3 3 3	0 0 0	7 7 7	45 45 45
P 3 P_3 P3	5 5 5	2 2 2	5 5 5	43 43 43
P 4 P_4 P4	8 8 8	5 5 5	2 2 2	40 40 40
P 5 P_5 P5	9 9 9	6 6 6	1 1 1	39 39 39
P 6 P_6 P6	11 11 11	8 8 8	1 1 1	37 37 37
P 7 P_7 P7	12 12 12	9 9 9	2 2 2	36 36 36
P 8 P_8 P8	13 13 13	10 10 10	3 3 3	35 35 35
P 9 P_9 P9	37 37 37	34 34 34	27 27 27	11 11 11
P 10 P_{10} P10	43 43 43	40 40 40	33 33 33	5 5 5
P 11 P_{11} P11	45 45 45	42 42 42	35 35 35	3 3 3
P 12 P_{12} P12	49 49 49	46 46 46	39 39 39	1 1 1
P 13 P_{13} P13	51 51 51	48 48 48	41 41 41	3 3 3
P 14 P_{14} P14	65 65 65	62 62 62	55 55 55	17 17 17

$C_1$

$C_2$

$C_3$

中心值

$3$

$10$

$48$

$P_{1}$

$1$

$2$

$9$

$47$

$P_2$

$3$

$0$

$7$

$45$

$P_3$

$5$

$2$

$5$

$43$

$P_4$

$8$

$5$

$2$

$40$

$P_5$

$9$

$6$

$1$

$39$

$P_6$

$11$

$8$

$1$

$37$

$P_7$

$12$

$9$

$2$

$36$

$P_8$

$13$

$10$

$3$

$35$

$P_9$

$37$

$34$

$27$

$11$

$P_{10}$

$43$

$40$

$33$

$5$

$P_{11}$

$45$

$42$

$35$

$3$

$P_{12}$

$49$

$46$

$39$

$1$

$P_{13}$

$51$

$48$

$41$

$3$

$P_{14}$

$65$

$62$

$55$

$17$

第四次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为

$\{P_1 , P_2, \cdots , P_{14}\}$

这

$14$

个样本分组 :

$P_{1}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$2$

$P_1$

样本分组到

$K_1$

组 ;

$P_{2}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$0$

$P_2$

样本分组到

$K_1$

组 ;

$P_{3}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_1$

距离最近 , 距离是

$2$

$P_3$

样本分组到

$K_1$

组 ;

$P_{4}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$2$

$P_4$

样本分组到

$K_1$

组 ;

$P_{5}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$1$

$P_5$

样本分组到

$K_1$

组 ;

$P_{6}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$1$

$P_6$

样本分组到

$K_2$

组 ;

$P_{7}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$2$

$P_7$

样本分组到

$K_2$

组 ;

$P_{8}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_2$

距离最近 , 距离是

$3$

$P_8$

样本分组到

$K_2$

组 ;

$P_{9}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$11$

$P_9$

样本分组到

$K_3$

组 ;

$P_{10}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$5$

$P_{10}$

样本分组到

$K_3$

组 ;

$P_{11}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$3$

$P_{11}$

样本分组到

$K_3$

组 ;

$P_{12}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$1$

$P_{12}$

样本分组到

$K_3$

组 ;

$P_{13}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$3$

$P_{13}$

样本分组到

$K_3$

组 ;

$P_{14}$

与

$\{C_1, C_2, C_3\}$

三个中心点中的

$C_3$

距离最近 , 距离是

$17$

$P_{14}$

样本分组到

$K_3$

组 ;

2 . 当前分组依据的中心点 :

$\{3 , 10 , 48\}$

3 . 当前分组结果 :

$K_1 = \{ P_{1} , P_{2} , P_{3} \}$

$K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}$

$K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}$

本次分组与上一次分组没有变化 , 说明聚类算法已经收敛 , 该结果就是聚类最终结果 ;

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020-05-03，如有侵权请联系 cloudcommunity@tencent.com 删除

数据挖掘

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

1917

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

970

60页PPT全解：DeepSeek系列论文技术要点整理

1813

数据分析｜透彻地聊聊k-means聚类的原理和应用

聚类算法编程算法

K-Means 是一种非监督学习，解决的是聚类问题。K 代表的是 K 类，Means 代表的是中心，你可以理解这个算法的本质是确定 K 类的中心点。当你找到了中心点，也就完成了聚类！

1480

2020/02/19

1.6K0

【数据挖掘】数据挖掘总结 ( K-Means 聚类算法 | 一维数据的 K-Means 聚类 ) ★

数据挖掘聚类算法对象数据算法

个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

韩曙亮

2023/03/28

9500

【数据挖掘】数据挖掘总结 ( K-Means 聚类算法 | 二维数据的 K-Means 聚类 ) ★

数据挖掘聚类算法对象数据算法

个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

韩曙亮

2023/03/28

9430

聚类分析方法（一）

聚类算法对象函数数据算法

聚类分析 (clustering analysis) 是数据挖掘研究最为活跃、内容最为丰富的领域之一，其目的是通过对数据的深度分析，将一个数据集拆分成若干个子集 (每个子集称为一个簇，cluster)，使得同一个簇中数据对象 (也称数据点) 之间的距离很近或相似度较高，而不同簇中的对象之间距离很远或相似度较低。

Francek Chen

2025/01/23

820

数据挖掘对象连接数据原理

1 . K-Means 算法中中心点选择是随机的 : 随机地选择聚类分组的中心点 ;

韩曙亮

2023/03/27

2K0

【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )

【数据挖掘】K-Means 二维数据聚类分析 ( K-Means 迭代总结 | K-Means 初始中心点选择方案 | K-Means 算法优缺点 | K-Means 算法变种 )

数据挖掘聚类算法表格数据算法

③ 距离计算方式 : 使用曼哈顿距离 , 计算样本之间的相似度 ; 曼哈顿距离的计算方式是两个维度的数据差的绝对值相加 ;

韩曙亮

2023/03/27

9410

【数据挖掘】K-Means 二维数据聚类分析 ( K-Means 迭代总结 | K-Means 初始中心点选择方案 | K-Means 算法优缺点 | K-Means 算法变种 )

【数据挖掘】基于划分的聚类方法 ( K-Means 算法简介 | K-Means 算法步骤 | K-Means 图示 )

数据挖掘对象函数数据算法

1 . 基于划分的聚类方法 : 又叫基于分区的聚类方法 , 或基于距离的聚类方法 ;

韩曙亮

2023/03/27

1K0

【数据挖掘】基于划分的聚类方法 ( K-Means 算法简介 | K-Means 算法步骤 | K-Means 图示 )

数据挖掘对象数据算法原理

② 噪音识别 : 如果样本对象与其它的样本对象没有密度连接关系 , 那么该样本就是噪音 ;

韩曙亮

2023/03/27

1.2K0

【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( DBSCAN 原理 | DBSCAN 流程 | 可变密度问题 | 链条现象 | OPTICS 算法引入 | 聚类层次 | 族序概念 )

数据仓库作业六：第9章分类规则挖掘

数据库决策树对象数据数据仓库

1、设网球俱乐部有打球与气候条件的历史统计数据如下表1所示。它有“天气”、“气温”、“适度”和“风力”4个描述气候的条件属性，类别属性为“是”与“否”的二元取值，分别表示在当时的气候条件下是否适宜打球的两种类别。

Francek Chen

2025/01/22

520

数据挖掘之聚类算法K-Means总结

数据挖掘编程算法

序　　由于项目需要，需要对数据进行处理，故而又要滚回来看看paper,做点小功课，这篇文章只是简单的总结一下基础的Ｋmeans算法思想以及实现；正文： 1.基础Kmeans算法. 　　Kmeans算法的属于基础的聚类算法，它的核心思想是：　从初始的数据点集合，不断纳入新的点，然后再从新计算集合的“中心”，再以改点为初始点重新纳入新的点到集合，在计算”中心”，依次往复，直到这些集合不再都不能再纳入新的数据为止. 图解：　　　　假如我们在坐标轴中存在如下Ａ,B,C,D,E一共五个点，然后我们初始化

Gxjun

2018/03/27

1K0

K-Means聚类算法原理

其他

　　　　K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。

刘建平Pinard

2018/08/14

8580

MADlib——基于SQL的数据挖掘解决方案（26）——聚类之k-means方法

机器学习聚类算法编程算法数据挖掘大数据

聚类算法大都是几种最基本的方法，如k-means、层次聚类、SOM等，以及它们的许多改进变种。MADlib提供了一种k-means算法的实现。本篇主要介绍MADlib的k-means算法相关函数和应用案例。

用户1148526

2019/05/25

8500

【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )

数据挖掘存储对象集合数据

-邻域内可能有多于 MinPts 个样本 , 但是我们只取其半径范围内恰好有 MinPts 样本的半径值

韩曙亮

2023/03/27

1K0

【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )

机器学习之深入理解K-means、与KNN算法区别及其代码实现

其他 http

大黄大黄大黄

2018/09/14

2.3K0

HAWQ + MADlib 玩转数据挖掘之（八）——聚类方法之k-means

数据处理

本文介绍了聚类算法在数据分析中的应用，详细阐述了k-means算法的原理、应用场景和实现过程。同时，通过一个具体的实例，展示了如何通过聚类算法对用户数据进行分析和分类，并基于聚类结果进行营销策略的设计。

用户1148526

2018/01/03

1.3K0

聚类分析方法（三）

算法异常聚类算法对象数据

聚类分析是将一个数据集分解成若于个子集，每个子集称为一个簇，所有子集形成的集合称为该对象集的一个聚类。一个好的聚类算法应该产生高质量的簇和高质量的聚类，即簇内相似度总体最高，同时簇间相似度总体最低。鉴于许多聚类算法，包括

Francek Chen

2025/01/23

1770

K-means聚类算法

编程算法

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means 百度百科

机器学习和大数据挖掘

2019/07/02

7560

图解机器学习 | 聚类算法详解

机器学习

教程地址：http://www.showmeai.tech/tutorials/34

ShowMeAI

2022/03/10

2.4K2

数值计算方法 Chapter8. 常微分方程的数值解

python

梯形公式本质上依然还是基于微分差商，不过不同于之前直接使用微分的形式，这里更加严格的使用了积分的表达，即：

codename_cys

2022/08/23

2.8K0

DBSCAN密度聚类算法

其他

　　　　DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。

刘建平Pinard

2018/08/14

1.2K0