前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习第2天:训练数据的获取与处理

机器学习第2天:训练数据的获取与处理

作者头像
Nowl
发布于 2024-01-18 11:45:27
发布于 2024-01-18 11:45:27
24500
代码可运行
举报
文章被收录于专栏:NowlNowl_AINowlNowl_AI
运行总次数:0
代码可运行

数据的获取

我们知道机器学习的关键是数据和算法,提到数据,我们必须要有在这个大数据时代挑选我们需要的,优质的数据来训练我们的模型,这里分享几个数据获取平台

Kaggle Datasets Find Open Datasets and Machine Learning Projects | Kaggle UC Home - UCI Machine Learning Repository


简单的数据操作

数据保存

我们收集到的数据有时是杂乱的,这时我们可以用python的pandas库来将数据保存为csv格式(excel表的一种格式)

以下是一个简单示例

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd


dic = {'name': ['mike', 'tom', 'jane'], 'height': [178, 155, 163]}
df1 = pd.DataFrame(dic) # 将字典转化为DataFrame格式,这是一种pandas适配的二维存储格式
df1.to_csv("test.csv", index=False)

举一反三,当我们获取到数据的时候,将它们保存为列表并设置索引后,就可以如示例一样保存为csv文件了,这里将index设置为False,否则会多出来一行索引列,之后我们读取数据时可以直接按序号索引,所以不必多出这一行

打开文件效果如下


数据的读取

我们同样是用pandas来处理数据,使用刚刚的文件,一个简单示例如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd


s = pd.read_csv("test.csv")
print(s)

运行结果如下


数据的操作

一个基本的操作csv表的方式就是按行按列索引了,我们同样按之前的文件来举个简单的例子

(1)按列索引
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd


s = pd.read_csv("test.csv")
print(s["name"])

运行结果

(2)按行索引

注意,当我们直接这样按行索引,是会报错的

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd


s = pd.read_csv("test.csv")
print(s[0])

这里我们介绍一种非常方便的索引方法,往下看

(3)iloc索引

iloc是一个通用的数据索引方法,让我们来看看怎么用吧

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
s.iloc[,] #一个伪代码

iloc的参数用逗号隔开,前面是行的位置,后面是列的位置,例如

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd


s = pd.read_csv("test.csv")
print(s.iloc[0, 0])

我们将获得第一行第一列的值

iloc也支持切片操作,例如

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd


s = pd.read_csv("test.csv")
print(s.iloc[:, 0])

将打印第一列的所有行


数据分析示例

在这一部分我们以经典的鸢尾花数据集为例,简单介绍一下:鸢尾花数据集包括了花的种类,花瓣和花萼的长度与宽度,共五列数据,然后我们要训练一个通过花瓣,花萼长宽数据来判断品种的机器学习模型,机器学习的任务请参考这篇文章:机器学习第一天:概念与体系漫游-CSDN博客

部分数据如下


数据特征

我们来分析这个数据集的特征

value_counts()

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd


iris = pd.read_csv("/kaggle/input/iris-flower-dataset/IRIS.csv")
iris['species'].value_counts()

这里我们读取了数据集并命名为iris,然后我们统计species这一列的数据数量,得到

可以看到,三种花的种类的数据各50个

describe()

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iris.describe()

这个方法可以获得所有数字列的数字特征

如图可见,给出了我们数字列的数据个数,平均数,标准差,最小值等 ,通过这个方法我们可以遍观整个数据集


数据关系

接下来我们查看数据关系,这里不对具体代码做说明,仅分析意义,有兴趣的读者可以去搜索鸢尾花分类任务详细了解

我们将花萼的长和宽以散点图的形式绘制出来

再将花瓣的长和宽绘制出来

明显可以看到,花瓣长宽图中不同颜色的点(代表不同花的种类)比花萼长宽图中更加分布鲜明

这就代表,不同的鸢尾花品种,花瓣的长宽一般有很大区别,那我们在训练模型的时候就可以把花瓣长宽作为数据训练,得到的模型效果将比用花萼长宽训练出来的效果更好

这就是数据分析的意义之一:找到强特征

结语

数据的获取,处理与分析是机器学习中一个重要的过程,好的数据分析与好的算法一样重要,数据分析有许多方法,这里仅带读者了解一下,欢迎收藏,之后也许还会补充内容

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习实战第1天:鸢尾花分类任务
鸢尾花分类任务是一个经典的机器学习问题,通常用于演示和测试分类算法的性能。该任务的目标是根据鸢尾花的特征将其分为三个不同的品种,即山鸢尾(Setosa)、变色鸢尾(Versicolor)和维吉尼亚鸢尾(Virginica)。这个任务是一个多类别分类问题,其中每个样本都属于三个可能的类别之一。
Nowl
2024/01/18
2K0
机器学习实战第1天:鸢尾花分类任务
从零开始实现数据预处理流程
众所周知,训练机器学习模型的目标是提高模型的泛化能力,通常使用测试集误差来近似模型在现实世界的泛化误差。为了能用机器学习来解决现实世界的问题,我们通常需要对从现实世界中获取的数据进行预处理操作。本文需要使用两个软件包:
触摸壹缕阳光
2021/06/15
1.4K0
实验一:鸢尾花数据集分类「建议收藏」
利用机器学习算法构建模型,根据鸢尾花的花萼和花瓣大小,区分鸢尾花的品种。实现一个基础的三分类问题。
全栈程序员站长
2022/08/02
8.9K0
实验一:鸢尾花数据集分类「建议收藏」
python导入鸢尾花数据集_python数据挖掘学习笔记】十九.鸢尾花数据集可视化、线性回归、决策树花样分析…
#2018-04-05 16:57:26 April Thursday the 14 week, the 095 day SZ SSMR
全栈程序员站长
2022/07/31
2.7K0
鸢尾花(Iris)数据集入门
鸢尾花(Iris)数据集是机器学习领域中最经典的数据集之一。它由三种不同品种的鸢尾花的测量数据组成:山鸢尾(setosa)、变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica)。 在这篇文章中,我们将使用Markdown代码格式详细介绍鸢尾花数据集的基本信息以及如何加载和探索这个数据集。
大盘鸡拌面
2023/10/20
2.9K0
机器学习案例——鸢尾花数据集分析
    前几天把python基础知识过了一遍,拿了这个小例子作为练手项目,这个案例也有师兄的帮助,记录完,发现代码贴的很多,文章有点长,为了节省篇幅,有一些说明就去掉了,毕竟鸢尾花数据集比较经典,网上能找到很多和我差不多的案例。还有就是发现一个新的markdown排版工具,今天想试试效果。
全栈程序员站长
2022/11/09
9000
Python快速实战机器学习(2) 数据预处理
机器学习是如今人工智能时代背景下一个重要的领域,它应用广泛,如推荐系统,文本分析,图像识别,语言翻译等等。要想学通这个大的领域不是一件容易的事情,所以我打算集大家之长,开通一个“Python快速实战机器学习”系列,用Python代码实践机器学习里面的算法,旨在理论和实践同时进行,快速掌握知识。
HuangWeiAI
2019/09/30
6900
Python快速实战机器学习(2) 数据预处理
小蛇学python(14)K-means预测花朵种类
承接上一篇有关如何处理数据的文章,这一篇,我们来一次实战,让大家感受一下这个过程。
用户2145057
2018/09/12
7690
小蛇学python(14)K-means预测花朵种类
基于神经网络——鸢尾花识别(Iris)
鸢尾花识别是学习AI入门的案例,这里和大家分享下使用Tensorflow 2框架,编写程序,获取鸢尾花数据,搭建神经网络,最后训练和识别鸢尾花。
一颗小树x
2021/05/18
7.3K0
基于神经网络——鸢尾花识别(Iris)
【机器学习基础】(三):理解逻辑回归及二分类、多分类代码实践
我们把连续的预测值进行人工定义,边界的一边定义为1,另一边定义为0。这样我们就把回归问题转换成了分类问题。
黄博的机器学习圈子
2021/02/08
4.5K0
Python数据分析实战(2)使用Pandas进行数据分析
Pandas的使用很灵活,最重要的两个数据类型是DataFrame和Series。
cutercorley
2020/08/26
4.2K0
机器学习入门 3-12 数据加载和简单的数据探索
在 scikit-learn 的 datasets 模块中,包含很多机器学习和统计学中的经典数据集。
触摸壹缕阳光
2022/11/08
5490
机器学习入门 3-12 数据加载和简单的数据探索
【Python篇】深入机器学习核心:XGBoost 从入门到实战
在机器学习中,XGBoost 是一种基于梯度提升的决策树(GBDT)实现,因其卓越的性能和速度,广泛应用于分类、回归等任务。尤其在Kaggle竞赛中,XGBoost以其强大的表现受到开发者青睐。
半截诗
2024/10/09
1.5K0
鸢尾花数据集可视化探索
学过数据分析的朋友们肯定都知道鸢尾花数据集。作为一个简简单单只有 4 个特征的150 行数据,经常被拖出来在数据处理和聚类算法课上作为例子。
数据山谷
2021/01/22
1.4K0
小白入门最简单的机器学习算法
阅读本文大概需要3分钟 菜鸟独白 上一篇(菜鸟学机器学习启航篇)对机器学习做了初步的介绍,机器学习的算法有很多,小白开始学习的时候,往往会被弄晕。有没有比较简单适合小白入手的算法呢~~当然有的,今天我们从最最简单的机器学习算法kNN入手,慢慢的通过一些简单的例子来理解机器学习。 1.挑兵器 1).语言 机器学习的文章,我主要以Python3为主,当然有的时候会穿插Python2.因为我一直是Py2/3混用的,而且Py2有点恋恋不舍,毕竟用了好多年了,一般会针对不同的项目用不同的语言. 2).开发工具 Pyt
企鹅号小编
2018/02/02
2.2K0
小白入门最简单的机器学习算法
机器学习如何为业务赋能?
Python 是一种胶水语言,可以粘很多家伙,例如:Python + 网站开发、Python + 自动化测试、Python + 自动化运维、Python + AI、Python + 数据分析 ... ...
一猿小讲
2019/08/16
4970
机器学习如何为业务赋能?
手把手教你使用sklearn快速入门机器学习
sklearn(scikit-learn)是一个非常优秀的Python库,它封装了机器学习中常用的算法,包括监督学习、非监督学习等。它有以下几个特点:
abs_zero
2018/04/11
3.3K0
手把手教你使用sklearn快速入门机器学习
Pandas简单入门 1
我是从16年开始学习Python的,在使用Python最开始的一段时间,基本是操作list列表和dict字典两个简单的数据结构,后来接触数据的特征越来越多,发现即使是嵌套字典记录数据也很困难,就开始寻求其他的替代方法,于是就发现了很好用的Pandas。
阿凡亮
2020/04/13
5730
机器学习入门-python实现感知器算法
其中△w(j)用于更新w(j)的值,该值计算(eta为学习速率,一般为0-1之间的常数):
Andromeda
2023/10/21
2650
机器学习入门-python实现感知器算法
Python机器学习之旅|手把手带你探索IRIS数据集
大家好,关于数据挖掘或者机器学习的理论我想大家应该都已经了解很多,而数据挖掘的工具例如Pandas、NumPy、Sklearn等在历史文章都有所介绍,因此今天我们将开始第二个案例实战也是使用非常多的IRIS数据集:根据花瓣和花萼的长宽预测鸢尾花的种类。
刘早起
2020/05/12
6370
推荐阅读
相关推荐
机器学习实战第1天:鸢尾花分类任务
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验