前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >这个云ETL工具配合Python轻松实现大数据集分析,附案例

这个云ETL工具配合Python轻松实现大数据集分析,附案例

作者头像
派大星的数据屋
发布于 2023-09-04 04:56:33
发布于 2023-09-04 04:56:33
27400
代码可运行
举报
运行总次数:0
代码可运行

一、Python处理大数据集的痛点

Python数据分析最好的工具之一,像pandas、numpy、matplotlib等都是Python生态的数据分析利器,但处理大数据集是Python的一大痛点,特别是你在本地电脑进行IO操作时非常慢,像pandas读取上G的文件就得几分钟。

我之前参加过一个交通类的数据科学比赛,主办方让参赛者从官网下载几十G的原始CSV文件,这些数据存在电脑里,然后通过Python来读取、清洗、可视化、建模,每一步都很慢,当时用了多线程、分块读取等各种方法才勉强完成比赛。

当然市面上很多工具可以提升数据处理的效率,比如Pyspark、Modin、Polars等,确实提升不少,但依旧受限于电脑的内存和性能限制。

二、使用下秒数据机器人实现大数据集ETL

既然本地电脑不行,那就只能上云,我的需求是云工具必须要能快速存取数据,且支持SQL查询和Python调用,这样既能在云上完成SQL数据清洗,还能通过Python调用API实现数据抽取。

最近刚好发现了这样一个工具-下秒数据机器人,不光支持大数据集快速上传、SQL查询、Python API调用,还能实现AI数据问答、自助分析等功能,非常方便。

a) 数据集导入

下秒数据机器人支持CSV、Excel、XML、Json及各种数据库等数据导入

下秒数据机器人网站链接:

http://nexadata.cn/mobileSetMessage

如果对数据导入有问题,可以联系下秒的技术支持

b) SQL数据查询

数据导入过程中可以使用SQL进行数据清洗,也可以查询已经导入的数据集

c) Python API调用

几行代码就可以实现Python API数据读取,还支持Java、Javascript、PHP语言调用,再也不用纠结本地电脑内存了。

d) AI数据问答

通过文本提问形式,实现数据的分析和提取

e) 自助分析

下秒数据机器人还提供了各种自助分析的工具,像文本自动分类、ABC分析、留存分析等,无需代码也能分析数据。

三、案例:探索分析葡萄酒质量

有了这个云ETL工具后,用Python来分析数据就方便很多,一方面大数据集可以快速上传和调用,另一方面直接从云上取数,不依赖终端设备,并且你的很多数据处理工作都可以在云上完成,Python取数后直接可以分析和建模。

下面用葡萄酒质量数据集来演示下如何使用下秒数据机器人来存储数据,并使用Python调用接口来进行数据分析。

葡萄酒数据是经典的kaggle比赛数据集,通过葡萄酒各种化学指标来评估葡萄酒的质量,非常具有分析价值。

a) 上传数据

直接将葡萄酒数据集csv文件上传到下秒数据机器人平台

上传完成保存后,便建立了一个数据流程任务,然后再构建数据视图,我们便可以使用Python API调用这个数据集。

b) 调用API数据

数据视图有API调用功能,提供了各种编程语言示例代码,我们复制Python示例代码到编辑器里,填好taken便可以调用数据了。

数据取出来是json格式,可以把数据读成pandas dataframe格式,方便查看分析。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
import requests
# 导入数据,使用下秒机器人存储数据,通过API调用
headers = { "x-token": "tkb31a7c693c8341a8b47e9ce4e32184e9" }
response = requests.get("http://demo.chafer.nexadata.cn/openapi/v1/sheet/sht21JULR9CANs/records?size=500&page=1", headers = headers)
data = response.json()['data']['list']
data = pd.DataFrame(data).astype(float)
data
c) 数据探索可视化分析

接下来就是数据分析过程,使用Python pandas和matplotlib对葡萄酒数据集进行可视化分析。

数据分析的核心目标是评估葡萄酒的质量,评估哪些特征对葡萄酒的品质影响最大,以及葡萄酒不同特征之间有无相关性。

首先查看数据集的描述性统计,像平均值、方差等,观察数据的分布情况

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 查看数据集的描述统计
data.describe()[1:].T.style.background_gradient(cmap='Blues')

其次各个特征之间的相关性关系,通过颜色深浅可以看出不同特征间的相关关系。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import matplotlib.pyplot as plt
# 查看相关系数
plt.figure(figsize=(20, 17))
matrix = np.triu(data.corr())
sns.heatmap(data.corr(), annot=True,
            linewidth=.8, mask=matrix, cmap="rocket")
plt.show()

最后查看葡萄酒不同质量情况下,酸度等其他指标的平均值,来判定葡萄酒各指标对质量的影响。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# fixed acidity - quality两者关系
data[["fixed_acidity","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# fixed acidity - quality两者关系
data[["alcohol","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# fixed acidity - quality两者关系
data[["pH","quality"]].groupby(["quality"], as_index = False).mean().sort_values(by = "quality").style.background_gradient("Blues")

这里对葡萄酒质量数据做了简单的可视化探索,还有很多东西可以挖掘,比如口感较甜的葡萄酒是否质量更好?什么样酒精度的葡萄酒质量最好?什么样PH值的葡萄酒质量最好等等?

我把数据集和完整代码放在下秒数据机器人网站里,大家可以点击阅读原文去亲自试一试如何操作。

四、总结

对于经常使用Python做数据分析和建模的同学来说,像下秒数据机器人这样的云数据ETL有很多便捷之处,不用担心大数据读取慢,也不用担心换设备没数据可用,你可以专心做分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python大数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Java 开发玩转机器学习的利器:Tribuo
作为一名Java开发者,如果要训练自己的预测模型,是不是第一想到的还是把Python拿起来?其实不一定非要拿起Python,在Java领域也有自己的生产级机器学习工具,它支持分类、回归、聚类等常见任务,还能无缝对接 TensorFlow 等框架,用 Java 就能直接训模型、做预测!它就是:Tribuo。
程序猿DD
2025/06/09
330
Java 开发玩转机器学习的利器:Tribuo
【干货】​在Python中构建可部署的ML分类器
【导读】本文是机器学习爱好者 Sambit Mahapatra 撰写的一篇技术博文,利用Python设计一个二分类器,详细讨论了模型中的三个主要过程:处理不平衡数据、调整参数、保存模型和部署模型。文中
WZEARW
2018/04/13
2.2K0
【干货】​在Python中构建可部署的ML分类器
独家 | 教你实现数据集多维可视化(附代码)
翻译:张媛 校对:卢苗苗 用代码将你的数据集进行多维可视化! 介绍 描述性分析是与数据科学或特定研究相关的任何分析生命周期中的核心组成部分之一。数据聚合,汇总与可视化是支撑数据分析这一领域的主要支柱。从传统商业智能时代开始,即使在如今的人工智能时代,数据可视化一直是一种强大的工具,由于其能够有效地抽象出正确的信息,清晰直观地理解和解释数据结果而被很多组织广泛地采用。然而处理通常具有两个以上属性的数据集时开始出现问题,因为数据分析和通信的媒介一般局限于两个维度。在本文中,我们将探讨多维数据可视化过程中的一些
数据派THU
2018/03/26
7.1K1
独家 | 教你实现数据集多维可视化(附代码)
Python数据分析实验三:基于Scikit-Learn构建数据分析模型
文章相关资源可参考我的GitCode仓库:https://gitcode.com/Morse_Chen/Python_data_analysis
Francek Chen
2025/01/22
1400
Python数据分析实验三:基于Scikit-Learn构建数据分析模型
还在纸上谈兵?第一份工作前获得数据科学实战经验的3种方法
许多公司通常需要硕士学位和至少2-3年的工作经验,这对进入数据科学领域尤其困难。话虽如此,作者仍然有很多宝贵的资源想和你们分享。
大数据文摘
2020/07/22
4290
还在纸上谈兵?第一份工作前获得数据科学实战经验的3种方法
2020年度最佳的23个的机器学习项目(附源代码)
我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?
大数据文摘
2020/08/02
2.4K0
使用Python分析瑞幸和星巴克全国门店分布关系
上个月瑞幸咖啡的酱香拿铁火出圈,让瑞幸再一次出现在聚光灯下,上一次还是财务造假的时候。
派大星的数据屋
2023/10/27
4660
使用Python分析瑞幸和星巴克全国门店分布关系
训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【上篇】
数据是机器学习算法的动力,scikit-learn或sklearn提供了高质量的数据集,被研究人员、从业人员和爱好者广泛使用。Scikit-learn(sklearn)是一个建立在SciPy之上的机器学习的Python模块。它的独特之处在于其拥有大量的算法、十分易用以及能够与其他Python库进行整合。
Regan Yue
2023/04/27
1.8K0
训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【上篇】
命令行上的数据科学第二版:九、建模数据
在本章中,我们将执行 OSEMN 模型的第四步:数据建模。一般来说,模型是对数据的抽象或更高层次的描述。建模有点像创建可视化,因为我们从单个数据点后退一步来看更大的画面。
ApacheCN_飞龙
2023/03/31
8290
从1维到6维,一文读懂多维数据可视化策略
选自towardsdatascience 作者:Dipanjan Sarkar 机器之心编译 参与:Jane W、乾树、黄小天 数据聚合、汇总和可视化是支撑数据分析领域的三大支柱。长久以来,数据可视化都是一个强有力的工具,被业界广泛使用,却受限于 2 维。在本文中,作者将探索一些有效的多维数据可视化策略(范围从 1 维到 6 维)。 介绍 描述性分析(descriptive analytics)是任何分析生命周期的数据科学项目或特定研究的核心组成部分之一。数据聚合(aggregation)、汇总(summa
机器之心
2018/05/10
1.9K0
一些著名的数据科学公开数据集与数据源
一些可视化库和机器学习库有着内置数据集的传统。因为库的文档和案例通常会使用一些数据集来举例、内置数据集后方便用户学习该库的可视化语法,方便复现效果。
蛰虫始航
2021/03/11
1.7K0
一些著名的数据科学公开数据集与数据源
共享单车数据集超10万条
共享单车数据集,包括骑行时间、会员骑行时间、会员类型、骑行路线类别、开始时间、结束时间、开始站点、结束站点、经度纬度等等。
机器学习AI算法工程
2021/09/02
2.4K0
共享单车数据集超10万条
[机器学习]-[数据预处理]-中心化 缩放 KNN(一)
数据预处理是总称,涵盖了数据分析师使用它将数据转处理成想要的数据的一系列操作。例如,对某个网站进行分析的时候,可能会去掉 html 标签,空格,缩进以及提取相关关键字。分析空间数据的时候,一般会把带单位(米、千米)的数据转换为“单元性数据”,这样,在算法的时候,就不需要考虑具体的单位。数据预处理不是凭空想象出来的。换句话说,预处理是达到某种目的的手段,并且没有硬性规则,一般会跟根据个人经验会形成一套预处理的模型,预处理一般是整个结果流程中的一个环节,并且预处理的结果好坏需要放到到整个流程中再进行评估。
数据分析
2018/01/25
7670
[机器学习]-[数据预处理]-中心化 缩放 KNN(一)
python 数据分析基础 day16-使用statasmodels进行线性回归
今天是读《python数据分析基础》的第16天,今天的读书笔记内容为使用statsmodels模块对数据进行最小二乘线性回归。 代码如下(详细内容请见代码备注): 注: 1.数据来源于 https://github.com/cbrownley/foundations-for-analytics-with-python/tree/master/statistics/winequality-both.csv 2.运用statsmodels模块进行最小二乘回归可参考此内容http://www.stats
billyang916
2018/05/02
1.7K0
【资源】17个最受欢迎的机器学习应用标准数据集
【新智元导读】学好机器学习的关键是用许多不同的数据集来实践。本文介绍了10个最受欢迎的标准机器学习数据集和7个时间序列数据集,既有回归问题也有分类问题,并提供了各数据集输入输出的变量名称和基准性能,以及下载地址,可以用作练习的资源。 学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题,需要有不同的数据准备和建模方法。本文介绍了10个最受欢迎的标准机器学习数据集,可以用作练习的资源。 每个数据集均按照一定的格式介绍,以使读者相对容易比较,为他们的特定练习任务选择数据集或建模方法。 格式: 名称:如
新智元
2018/03/26
3.8K0
【资源】17个最受欢迎的机器学习应用标准数据集
5 | PyTorch加载真实数据:图像、表格、文本,one-hot
在实际的工作中,常见的机器学习处理的数据大概分成三种,一种是图像数据,图像数据通常是RGB三通道的彩色数据,图像上的每个像素由一个数值表示,这个其实比较容易处理;一种是文本数据,文本数据挖掘就是我们通常说的自然语言处理,文本数据首先是非结构化的,同时我们需要把文本数据表示成数值,这得花一些功夫;还有一种就是结构化的数据,结构化数据比如说一张excel数据表,每一列代表一个特征,具体到它的值可能是数值也可能是文本,可能是连续的也可能是非连续的,这种数据我们也需要进行转化,但是通常来说比自然语言好处理一点。
机器学习之禅
2022/07/11
5841
5 | PyTorch加载真实数据:图像、表格、文本,one-hot
Python数据分析系列(1)——品味葡萄酒
作者:王大伟 Python爱好者社区唯一小编 博客:https://ask.hellobi.com/blog/wangdawei 前言 数据分析学习了挺久,pandas也用了比较多,自从上次写了篇 之后就没写过数据分析相关的了 之前那篇主要偏向数据清洗(因为数据是自己爬的,所以不太规整) 这次突出一下数据探索和可视化 之前一直听问某某某参加了kaggle大数据竞赛之类 我就去kaggle上瞄了一眼 打开了新世界的大门! kaggle上有世界各国网友提供的数据集 https://www.kaggle.co
企鹅号小编
2018/03/05
1.8K0
Python数据分析系列(1)——品味葡萄酒
如何在网上选到一瓶心仪的红酒?通过文本分析预测葡萄酒的质量
爱酒人士应该都知道,选红酒是个需要大量知识储备的技术活——产地、年份、包装、饮用场合,每个元素的变化都会对口感产生一定的影响。
大数据文摘
2019/05/15
7340
如何在网上选到一瓶心仪的红酒?通过文本分析预测葡萄酒的质量
一文看懂大数据思维
真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。将大规模的数据与运用融合一起,将会颠覆很多我们原来的思维。大数据思维原理到底是什么?笔者概括为10项原理。 一、数据核心原理:从“流程”核心转变为“数据”核心   大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。   例如:IBM将使用以数据为中心的设计
智能算法
2018/04/02
1.4K0
独家 | 如何全面解析数据并创造数据故事
“讲故事”的主意是极好的:将一个想法或事件变成一个故事。它将想法带进生活,并为其增添了乐趣。这发生在我们的日常生活中。无论我们陈述一个有趣的事件还是新发现,故事总是吸引听众和读者兴趣的首选。
数据派THU
2019/05/09
6960
独家 | 如何全面解析数据并创造数据故事
推荐阅读
相关推荐
Java 开发玩转机器学习的利器:Tribuo
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验