首页
学习
活动
专区
工具
TVP
发布

数据STUDIO

专栏成员
374
文章
667035
阅读量
29
订阅数
期末大作业:客户流失数据可视化分析与预测
在二元问题中,你必须猜测一个示例是否应该归类到特定类别(通常是正类 (1) 和负类 (0)。在本例中,churn 是正类。
数据STUDIO
2024-08-01
1530
平滑时间序列数据,别再用移动平均线了
本文将解释为什么Savitzky-Golay滤波器能够比移动平均线更好地平滑时间序列数据,并附带Python代码示例。
数据STUDIO
2024-08-01
2330
使用决策树进行探索性数据分析
DT 在运筹学和数据科学领域非常实用,其成功的原因在于它遵循与人类决策过程类似的过程。该过程基于流程图,其中每个节点都会对给定变量进行简单的二元决策,直到我们做出最终决策。
数据STUDIO
2024-08-01
770
5 个 Pandas 超级好用的隐藏技巧
但我还是支持 Pandas。为什么?如果你不使用它的功能,你的操作可能会寸步难行。Pandas 非常庞大,需要学习的东西很多。
数据STUDIO
2024-07-24
1090
一个时间序列可视化神器:Plotnine
我们将利用6种不同的图表来揭示时间序列数据的各个方面。重点介绍Python中的plotnine库,这是一种基于图形语法(Grammar of Graphics)的绘图工具。
数据STUDIO
2024-07-24
4160
使用 TiDE 进行时间序列预测
时间序列预测一直是数据科学领域的一个热门研究课题,广泛应用于能源、金融、交通等诸多行业。传统的统计模型如ARIMA、GARCH等因其简单高效而被广泛使用。而近年来,随着深度学习的兴起,基于神经网络的预测模型也备受关注,表现出了强大的预测能力。
数据STUDIO
2024-07-24
2410
利用 RFM 和 CLTV 进行客户价值分析
RFM 分析是一种简单而有效的技术,可根据客户的购买行为对其进行细分。它代表最近度、频率和货币价值。通过分析这三个指标,企业可以识别最有价值的客户并相应地制定营销策略。
数据STUDIO
2024-07-24
1240
协方差矩阵适应进化算法实现高效特征选择
如果特征数量N较小,可使用穷举搜索尝试所有可能的特征组合,保留使成本/目标函数最小的那个。但当N较大时,穷举搜索就行不通了,因为需尝试的组合数为2^N,这是指数级增长,N超过几十个就变得极其耗时。
数据STUDIO
2024-07-24
760
避免 Python 高级陷阱,提升你的 Python 水平
Python是一种编程语言,它能够自动管理内存,这让编程变得更加方便。大多数情况下,Python的内存管理工作都很出色。但有时候,Python也需要更好地了解程序的实际情况,以便更好地管理内存。所以了解引用周期(程序对象的生命周期)和垃圾回收机制(自动清理不再使用的内存)非常重要,否则你可能会发现程序运行变慢。
数据STUDIO
2024-07-24
930
微软开源了可视化工具SandDance
前段时间,首席软件开发工程师Dan Marshall在其帖子中表示:“SandDance是Microsoft Research最受欢迎的数据可视化工具,已经作为GitHub上的开源项目重新发布。”
数据STUDIO
2024-07-24
1080
Python 中的 @wraps 到底是个啥东西?
你可能在随意的 Python 代码中见过这个 @wraps 的东西,你可能想知道这到底是什么?
数据STUDIO
2024-07-24
1210
使用机器学习、生成式人工智能和深度学习预测时间序列数据
时间序列数据是按特定时间间隔收集或记录的一系列数据点。比如股票价格、天气数据、销售数据和传感器读数。时间序列预测的目标是使用过去的观察结果来预测未来的值,但由于数据中固有的复杂性和模式,这可能具有挑战性。
数据STUDIO
2024-07-24
1580
再见One-Hot!时间序列特征循环编码火了!
举个例子,使用一个包含每小时电力消耗数据的数据集作为参考。能源消耗数据集通常属于时间序列数据,其最终目的是利用过去的数据来预测未来的消耗量,因此这是一个很好的应用案例。尽管温度、湿度和风速等外部特征也会对能源消耗产生影响,但在这里我会着重关注时间序列特征的提取和转换。
数据STUDIO
2024-07-24
1780
一个完整的销售预测数据挖掘实战案例
沃尔玛是美国领先的零售商之一,他们希望能够准确预测销售和需求,因为一些事件和节假日可能会影响每天的销售额。目前,他们有 45 家商店的销售数据,但由于机器学习算法的不适用,他们面临着不可预见的需求和库存短缺的挑战。理想情况下,一种合适的机器学习算法应该能够准确预测需求,并考虑到包括 CPI、失业指数等在内的经济状况因素。
数据STUDIO
2024-07-24
1300
效果绝了!用爬山算法集成6个机器学习模型
集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。
数据STUDIO
2024-07-24
1420
MCMC确定机器学习集成模型最佳权重
马尔科夫链假设某一时刻状态转移的概率只依赖于它的前一个状态。举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。当然这么说可能有些武断,但是这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络RNN,隐式马尔科夫模型HMM等,当然MCMC也需要它。
数据STUDIO
2024-07-24
1080
增强RAG:选择最佳的嵌入和重排模型
在构建检索增强生成(RAG)管道时,关键组件之一是检索器。我们有多种嵌入模型可供选择,包括 OpenAI、CohereAI 和开源的sentence transformers。此外,还有来自 CohereAI 和sentence transformers的几种重排器可供选择。
数据STUDIO
2024-07-24
3310
两行代码即可应用 40 个机器学习模型
我们导入之前安装的lazypredict库,lazypredict里面有两个类,一个用于分类,一个用于回归。
数据STUDIO
2024-07-24
670
如何从数据分析师进阶成为数据科学家?
如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:
数据STUDIO
2024-07-24
960
Python 最强异步编程:Asyncio
Asyncio异步编程的核心思想是让程序在等待I/O操作完成的同时,可以继续执行其他任务,从而提高资源利用率。这就好比一个厨师在炖菜的同时,开始准备沙拉,而不是煮一道菜时傻站着等待。通过合理安排,程序可以在单线程下高效完成诸多任务,从而达到"伪并行"的效果,提高了性能。
数据STUDIO
2024-07-24
4610
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档