首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    K-Means 的假设条件与失败场景:安全攻防视角下的聚类局限与改进

    2.3 安全场景下的3个核心新要素 自适应K值选择:针对安全威胁数量未知的问题,开发自适应K值选择方法,如基于轮廓系数、Davies-Bouldin指数等内部指标的自动K值选择[^2]。...,能够有效处理安全数据中的噪声和异常值,在网络异常检测任务中,将检测准确率从78%提高到92%,超过了传统K-Means算法14%以上[^5]。...改进策略:使用自动K值选择方法,如基于轮廓系数、Davies-Bouldin指数等内部指标,或者使用层次聚类算法,不需要预先指定K值。...使用自动K值选择方法,如轮廓系数、Davies-Bouldin指数等 init 初始聚类中心的初始化方法 ‘k-means++’ ‘k-means++’, ‘random’, 数组 建议使用’k-means...Davies-Bouldin指数等 结合领域知识,根据安全威胁的预期数量调整K值 尝试多个K值,选择效果最佳的K值 算法选择: 根据数据特性选择合适的聚类算法 非球形簇数据使用DBSCAN、OPTICS

    13510

    对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

    让我们使用一种基于模型的基本表示方法- 平均季节性。在此还有一个非常重要的注意事项,对时间序列进行归一化是对时间序列进行每次聚类或分类之前的必要步骤。...我们想要提取典型的消耗曲线,而不是根据消耗量进行聚类。 维数上已大大降低。现在,让我们使用K-medoids聚类方法来提取典型的消耗量。...由于我们不知道要选择合适的簇数,即先验信息,因此必须使用验证指数来确定最佳簇数。我将使用Davies-Bouldin指数进行评估,通过Davies-Bouldin指数计算,我们希望找到其最小值。...我将聚类数的范围设置为2-7。 让我们绘制评估的结果。 聚类的“最佳”数目是7。 我们绘制有7个聚类的聚类结果。 我们可以看到5个典型的提取轮廓 (簇的中心)。接下来的两个簇可以称为离群值。...但是也可以检查具有不同数量聚类的其他结果。 结论 在本教程中,我展示了如何使用时间序列表示方法来创建用电量的更多特征。然后,用时间序列进行K-medoids聚类,并从创建的聚类中提取典型的负荷曲线。

    1.1K30

    解码 K-Means 聚类:开启数据星河的炫酷聚类新纪元

    相似度通常通过计算数据点与簇中心之间的距离来衡量,常用的距离度量方式是欧氏距离。 算法具体步骤如下: 初始化:从数据集中随机选择 K 个样本作为初始的簇中心。...为了解决这个问题,可以采用多次随机初始化并选择最优结果的方法,但会增加计算成本。 K 值的选择困难:实际应用中往往难以确定合适的 K 值,需要借助其他方法进行选择。...Davies-Bouldin 指数:通过计算簇内距离与簇间距离的比值来评估聚类效果,值越小表示聚类效果越好。...代码实现: from sklearn.metrics import calinski_harabasz_score, davies_bouldin_score # 计算 Calinski-Harabasz...指数 ch_score = calinski_harabasz_score(X_scaled, labels) # 计算 Davies-Bouldin 指数 db_score = davies_bouldin_score

    43610

    无监督结果如何评估:安全攻防中的无监督模型评价体系

    1.2 当前安全领域的无监督评估应用热点 异常检测评估:评估无监督异常检测模型的准确性、误报率和漏报率。 聚类结果评估:评估聚类算法生成的簇的质量、纯度和分离度。...聚类结果的安全领域适配:针对安全领域的聚类结果,设计适合的评估指标,如簇的纯度、分离度和可解释性。 无监督模型的在线评估:设计实时监控无监督模型性能的方法,及时发现模型退化。...聚类内部指标:轮廓系数(Silhouette Coefficient)、Calinski-Harabasz指数、Davies-Bouldin指数等。...指数 db_score = davies_bouldin_score(X, y_pred) print(f"Davies-Bouldin指数: {db_score:.4f}")...∞) 越大越好 聚类内部指标 Davies-Bouldin指数 簇内距离与簇间距离的比值 [0, ∞) 越小越好 聚类外部指标 调整兰德指数 考虑随机分配的兰德指数调整 [-1, 1] 接近1 聚类外部指标

    13110

    独家 | 用LLM实现客户细分(上篇)

    更具体地说,是使用ECOD方法(“离群值检测的经验累积分布函数”)。 该方法从获得数据的分布中找出哪些值的概率密度较低(异常值),来看看Github中的代码。...虽然之前的结果并没有给出太多信息,但从另一方面来看,上述代码创建了Silhouette可视化,它提供了更多的信息: 不同数量聚类的Silhouette方法图形表示(图片由作者提供) 如何理解这些表示并非本博的的最终目标...""" 如上所示,并没有得到一个非常好的模型Davies分值,这表明聚类之间的距离相当小。...空间和聚类(图片由作者提供) 从图中可以看出,聚类间没有得到分离,也没有明确的划分,这与度量指标所提供的信息完全一致。...不同模型的降维方法和聚类的结果对比(图片由作者提供) 最后,来看看模型是如何工作的?其中哪些特征最为重要?聚类的主要特征又是什么?

    1.1K10

    R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归|附代码数据

    让我们使用一种基于模型的基本表示方法- 平均季节性。在此还有一个非常重要的注意事项,对时间序列进行归一化是对时间序列进行每次聚类或分类之前的必要步骤。...我们想要提取典型的消耗曲线,而不是根据消耗量进行聚类。维数上已大大降低。现在,让我们使用K-medoids聚类方法来提取典型的消耗量。...由于我们不知道要选择合适的簇数,即先验信息,因此必须使用验证指数来确定最佳簇数。我将使用Davies-Bouldin指数进行评估。通过Davies-Bouldin指数计算,我们希望找到其最小值。...我将聚类数的范围设置为2-7。让我们绘制评估的结果。聚类的“最佳”数目是7。我们绘制有7个聚类的聚类结果。我们可以看到5个典型的提取轮廓 (簇的中心)。接下来的两个簇可以称为离群值。...但是也可以检查具有不同数量聚类的其他结果。结论在本教程中,我展示了如何使用时间序列表示方法来创建用电量的更多特征。然后,用时间序列进行K-medoids聚类,并从创建的聚类中提取典型的负荷曲线。

    42610

    人工智能之核心基础 机器学习 第九章 聚类算法

    ——两大经典方法方法1:肘部法则(ElbowMethod)计算不同K下的簇内平方和(WCSS):WCSS=∑k=1K∑x∈Ck∥x−μk∥2\text{WCSS}=\sum_{k=1}^K\sum_{x...簇内离散越大越好计算快,适合凸形簇Davies-Bouldin(DB)平均簇内距/簇间距越小越好对K-Means友好展开代码语言:PythonAI代码解释fromsklearn.metricsimportcalinski_harabasz_score...,davies_bouldin_scorelabels=kmeans.labels_print("轮廓系数:",silhouette_score(X,labels))print("CH指数:",calinski_harabasz_score...(X,labels))print("DB指数:",davies_bouldin_score(X,labels))9.5实战案例案例1:K-Means用户分群(电商场景)展开代码语言:PythonAI代码解释...K-Means(快、简单)如果簇形状奇怪→用DBSCAN数据量小且想探索层次关系→用层次聚类资料关注公众号:咚咚王《Python编程:从入门到实践》《利用Python进行数据分析》《算法导论中文第三版》

    18300

    Alink漫谈(二十二) :源码分析之聚类评估

    内在方法:无监督的方法,无需基准数据。类内聚集程度和类间离散程度。 0x02 Alink支持的评估指标 Alink文档中如下:聚类评估是对聚类算法的预测结果进行效果评估,支持下列评估指标。...2.3 Davies-Bouldin指数(Dbi) 戴维森堡丁指数(DBI),又称为分类适确性指标,是由大卫L·戴维斯和唐纳德·Bouldin提出的一种评估聚类算法优劣的指标。...[ML] 聚类评价指标 聚类结果的评价指标 聚类评价指标 如何评价聚类结果的好坏?...聚类评估算法-轮廓系数(Silhouette Coefficient ) 聚类效果好坏的评价指标 ARI聚类效果评价指标 聚类算法评价指标——Davies-Bouldin指数(Dbi) 【每周一博】浅说...Davies-Bouldin指数(DBI) 聚类算法评价指标 聚类模型性能评价指标

    1.1K30

    精准用户画像!商城用户分群2.0!⛵

    本文讲解此过程中,多种机器学习聚类算法的建模流程与评估模式。...图片 在之前的文章 基于机器学习的用户价值数据挖掘与客户分群中,ShowMeAI 已经做了一些用户分群实操介绍,本篇内容中,ShowMeAI 将更深入地介绍聚类分群的方法,使用更丰富的建模方式,并剖析模型评估的方法模式...较高的 Calinski Harabasz 分数意味着更好的聚类(每个聚类中更密集)。...WGSS) 图片 第三步:计算卡林斯基哈拉巴斯得分(Calinski Harabasz score) 图片 ◉ 戴维斯布尔丹得分(Davies Bouldin score) 戴维斯布尔丹得分(Davies...Harabarsz 评分(局部最大值) Davies Bouldin 最低分数 我们以5为聚类个数,对数据重新聚类,并分发聚类 id,然后再对数据进行分布分析绘图,不同的用户簇的数据分布如下(我们可以比较清晰看到不同用户群的分布差异

    90352

    用户分群与画像:聚类算法的实战应用

    与需要标注数据的监督学习方法不同,聚类算法能够自主发现数据中的内在结构和模式,特别适合处理海量、未标注的用户数据。II....聚类算法基础理论2.1 聚类算法的数学原理聚类分析的核心目标是将数据集中的对象分组,使得同一组(簇)内的对象相似度较高,而不同组之间的对象相似度较低。从数学角度,这可以形式化为一个优化问题。...2-3直到质心不再显著变化或达到最大迭代次数2.2 距离度量与相似性计算在聚类算法中,距离度量是决定聚类效果的关键因素。...2.3 主要聚类算法分类根据聚类原理的不同,聚类算法可以分为以下几类:算法类型代表算法优点缺点适用场景划分式聚类K-means, K-medoids计算效率高,适合大规模数据需要预设簇数量,对初始值敏感球形簇...,噪声数据模型聚类GMM, SOM概率归属,理论基础强计算复杂,可能过拟合数据符合特定分布2.4 聚类算法评估指标评估聚类结果的质量是聚类分析中的重要环节。

    95710

    聚类模型评估指标之内部方法

    根式是否提供样本的标签信息,相关的指标可以分为以下两大类 1. 外部方法,外部方法指的是从外部提供数据的标签,比如通过专家认为定义类别,或者是本身就是有标签的数据,将标签拿掉之后做聚类 2....内部方法,内部方法指的是不需要数据的标签,仅仅从聚类效果本身出发,而制定的一些指标 本文主要关注内部方法,常用的指标有以下几种 1....针对单个聚类簇,计算簇内样本与中心点的平均距离,最后取所有簇的平均值即可计算出该指标。和SSE类似,也是只考虑了簇内相似度, 数值越小,聚类效果越好。 3....w表示聚类的中心点,通过计算两两聚类中心点的距离来得到最终的数值。和紧密型相反,该指标仅仅考虑不同簇之间的距离,数值越大,聚类效果越好。 4....CH的数值越大,说明簇内距离越小,簇间距离越大,聚类效果越好。 6. Davies-Bouldin Index 简称DBI, 称之为戴维森堡丁指数,公式如下 ?

    4.4K20

    如何评价无监督聚类算法

    有类标的情况 既然聚类是把一个包含若干文档的文档集合分成若干类,像上图如果聚类算法应该把文档集合分成3类,而不是2类或者5类,这就设计到一个如何评价聚类结果的问题。...如图,认为x代表一类文档,o代表一类文档,方框代表一类文档,完美的聚类显然是应该把各种不同的图形放入一类,事实上我们很难找到完美的聚类方法,各种方法在实际中难免有偏差,所以我们才需要对聚类算法进行评价看我们采用的方法是不是好的算法...其中C(n,m)是指在m中任选n个的组合数。 ? 相似的方法可以计算出: ? 所以: ? F值方法 这是基于上述RI方法衍生出的一个方法, ?...SP计算 各聚类中心两两之间平均距离,SP越高意味类间聚类距离越远 缺点:没有考虑类内效果 Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI) ?...DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)。

    2.3K20

    160_社交媒体分析:舆情监测 - 2025年LLM驱动的实时流情感聚类与多模态舆情洞察技术实现

    全球每天产生超过50亿条社交媒体内容,这些数据蕴含着巨大的商业价值、社会洞察和政策参考意义。然而,如何从海量、实时、异构的社交媒体流中准确识别和分析舆情趋势,成为企业、政府和研究机构面临的重大挑战。...主题提取:从每个聚类中提取主题和关键信息 可视化展示:将聚类结果以直观的方式展示 在2025年,情感聚类已经从传统的基于关键词的方法,发展到基于语义和情感的深度聚类方法。...以下是情感聚类的基本流程: 情感聚类流程: 文本预处理 → 特征提取 → 向量嵌入 → 相似度计算 → 聚类算法应用 → 主题提取 → 结果可视化 根据斯坦福大学的研究,结合LLM嵌入的情感聚类方法比传统方法的准确率提高了约...在实时流处理场景中,增量聚类是一种更为高效的方法。...在2025年,聚类优化和评估主要关注以下几个方面: 聚类质量评估指标: 轮廓系数(Silhouette Coefficient):评估聚类的紧密性和分离度 Davies-Bouldin指数:衡量聚类之间的相似度

    52311

    Python Monte Carlo K-Means聚类实战研究|附代码数据

    Davies-Bouldin指数 戴维斯-尔丁标准是基于一个特定的聚类的簇内和簇间的距离比。  注意:图像假设我们使用曼哈顿距离。...在Davies-Bouldin指数的上图中,我们有三个由三个模式组成的集群。 剪影指数 该  剪影指数)是衡量一个特定的聚类质量的最流行的方式之一。...假设您计算从每个模式到每个其他模式的距离,以计算哪个簇最接近,并且您为每个模式执行此操作。在这个例子中,相当于35,156次计算。...聚类理论 - 聚类中的蒙特卡罗方法 K-Means聚类算法的两个最大问题是: 它对质心的随机初始化很敏感 初始化的质心数,k 由于这些原因,K-means聚类算法经常重启多次。...2014年该群组中的国家/地区 ---- 聚类结果 - 结论和进一步研究 量化不是风险管理,衍生品定价或算法交易; 它是关于挑战事情的方式,通常使用统计和计算方法找到更好的方法。

    46200

    人工智能之核心基础 机器学习 第十一章 无监督学习总结

    人工智能之核心基础 机器学习第十一章 无监督学习总结核心思想:在没有标签的情况下,从数据中发现结构、模式与异常。...)↑ 越大越好(max=1)衡量簇内紧密 & 簇间分离Calinski-Harabasz (CH)↑ 越大越好簇间离散 / 簇内离散Davies-Bouldin (DB)↓ 越小越好平均簇内距 / 簇间距降维解释方差比例...探索未知:面对全新数据集,先用无监督“摸底”降本增效:通过降维减少计算资源消耗自动化洞察:无需人工标注,自动生成用户分群、异常告警增强监督学习:提供高质量特征(如聚类ID、PCA成分) 学习路径建议:入门...:掌握 K-Means + PCA(Scikit-learn 两行代码搞定)进阶:理解 DBSCAN 原理、t-SNE 可视化技巧实战:在真实业务中应用(如用户分群报告)拓展:尝试现代方法(UMAP 降维...更快更稳)资料关注公众号:咚咚王《Python编程:从入门到实践》《利用Python进行数据分析》《算法导论中文第三版》《概率论与数理统计(第四版) (盛骤) 》《程序员的数学》《线性代数应该这样学第

    19210

    如何实现类中的属性自动计算

    1、问题背景在软件开发中,有时我们需要创建一个类,该类的实例具有许多属性,这些属性可以通过某种计算方法获得。...我们希望能够通过一种简便的方法自动计算这些属性,而无需手动编写每个属性的计算方法。2、解决方案有几种方法可以实现类中的属性自动计算。1、使用魔法方法__getattr__。...元类是一个特殊的类,它可以用来创建其他类。在上面的代码中,MetaCalculateAttr元类通过重写__new__方法来实现属性自动计算。...__new__方法在类创建时被调用,并将类名、基类和类属性字典作为参数传递。在上面的代码中,MetaCalculateAttr元类遍历Test类的属性列表,并为每个属性创建一个属性描述符。...如果只需要实现少数几个属性的自动计算,可以使用魔法方法__getattr__。如果需要实现大量属性的自动计算,可以使用类装饰器或元类。

    1.4K10
    领券