Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >大数据通识课案例 | 当当网图书数据清洗

大数据通识课案例 | 当当网图书数据清洗

作者头像
数据科学人工智能
发布于 2022-04-01 06:33:36
发布于 2022-04-01 06:33:36
8510
举报

爱数科(iDataScience)是一个拖拽式数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 www.idatascience.cn

//v.qq.com/txp/iframe/player.html?origin=https%3A%2F%2Fmp.weixin.qq.com&containerId=js_tx_video_container_0.8001625478920908&vid=h3272ub4q2z&width=677&height=380.8125&autoplay=false&allowFullScreen=true&chid=17&full=true&show1080p=false&isDebugIframe=false

本案例使用爱数科(idatascience)的字符串匹配、字符串分割、字段重命名等组件,对从当当网抓取的机器学习相关的图书信息进行数据清洗,处理为符合我们要求的数据。本案例适合作为大一大数据通识导论课程数据清洗模块的教学案例。

1. 读数据表

首先,我们读取原始数据。数据集各字段的介绍可参考:

http://idatascience.cn/dataset-detail?table_id=2

可以看出原始数据中有许多问题,例如当前价格带有人民币符号'¥',评论数含有文本等等。

2. 提取价格数值

我们去掉当前价格这一列中的 '¥' 符号,使用正则表达式\d{1,4}\.{0,1}\d{0,2}将当前价格中的数值提取出来,保存为新的一列当前价格_match

3. 提取评论数

对于评论数这一列使用正则表达式\d{1,4}\.{0,1}\d{0,2}提取数值,保存为评论数_match

4. 提取星级数值

对于星级这一列使用正则表达式\d{1,4}\.{0,1}\d{0,2}提取数值,保存为星级_match

5. 星级数值除以20

接着将提取出的星级数值除以20,将取值范围转换为[0,5]。

可以看到,经过列数值计算后的数据更适合数据的建模计算和可视化分析了。

6. 出版信息字符串分割

接下来我们处理出版信息这一列,从原始数据中可以看到,这一列主要包含三个信息,分别是作者、出版日期、出版社。它们以“/”分隔,并且存放在一个数据单元中,我们将它们分别取出,然后单独存为三列。

7. 书名去掉【】

书名信息中混合着简介信息,观察原始数据中书名一列,能找到一些规律。除去一些包含在 【】和 [] 中间的标注信息,剩余的内容中书名和其他内容基本是由空格隔开的。所以我们首先将【】和 [] 去掉,然后按照空格分隔字符串,第一个内容便是书名。

首先在书名一列中去掉【】中的信息,并将结果保存为书名_replace

8. 书名去掉[]

接着在书名_replace一列中去掉[]中的信息,保存为书名_replace_replace

9. 书名字符串分割

去除方括号【】和[]后我们把书名_replace_replace列中文字根据空格进行字符串分割,并进行分列。

10. 删除不需要的数据列

在原始数据中和上面操作生成数据中有许多冗余数据列,我们把不需要的数据列都删除掉。

11. 数据字段重命名

最后,我们将数据集各列特征名称修改为各列数据的信息种类。

原始数据集中含有文字数字混杂、量纲不同等等问题。经过数据清理,原始数据集已经适用于进一步的建模计算和可视化处理了。

  • 案例在线地址:http://idatascience.cn/case-detail?experimentId=320
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用网络爬虫自动抓取图书信息
网络爬虫是一种从互联网上进行开放数据采集的重要手段。本案例通过使用Python的相关模块,开发一个简单的爬虫。实现从某图书网站自动下载感兴趣的图书信息的功能。主要实现的功能包括单页面图书信息下载,图书信息抽取,多页面图书信息下载等。本案例适合大数据初学者了解并动手实现自己的网络爬虫。
数据科学人工智能
2022/03/31
2.6K0
使用网络爬虫自动抓取图书信息
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
(1)Linux: Ubuntu 16.04 (2)Python: 3.5 (3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3 (6)可视化工具:Echarts (7)开发工具:Visual Studio Code
Maynor
2023/10/22
7480
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
当当网图书数据清洗
在之前的案例使用网络爬虫自动抓取图书信息中,我们通过简单的爬虫抓取了当当网的机器学习相关的图书数据,并保存为 ./input/books_total.csv 文件。通过爬虫采集原始数据,但是由于各种原因,原始数据往往会存在许多问题,例如数据格式不正确,数据存在冗余等等。因此第一手获得的原始数据不能直接使用,需要进行数据清洗。本案例基于爬取的书籍数据进行数据清洗,使其称为符合我们要求的数据。
数据科学人工智能
2022/04/01
1.1K0
当当网图书数据清洗
爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗
  ♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥
不温卜火
2020/12/03
4.5K1
爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗
大数据ETL开发之图解Kettle工具(入门到精通)
ETL (Extract-Transform-Load 的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。
全栈程序员站长
2022/07/01
20.3K0
大数据ETL开发之图解Kettle工具(入门到精通)
一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】
前言 本次案例实现目标 书籍基本数据 实现可视化图表 书籍评论数据 评论可以实现词云图 最基本思路流程: <通用> 一. 数据来源分析 只有当你知道你想要数据内容, 是来自于哪里的时候, 才能通过代码请求得到数据 打开 F12 开发者工具进行抓包分析 通过关键字进行搜索查询 数据包是请求那个url地址 二. 代码实现步骤过程: 代码实现基本四大步骤 发送请求, 模拟浏览器对于url地址<刚刚分析得到的url地址>发送请求 获取数据, 获取服务器返回响应数据 ---> 开发者工具里面 response 解析数
松鼠爱吃饼干
2022/12/05
7421
一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】
用python爬取豆瓣读书网中所有图书的基本信息,全部都一目了然!
互联网给了我们很多的方便,而网络小说、电子书等也应潮流而发展,方便了人随时查看想要看的图书,方便携带。
Python与Excel之交
2021/08/05
6.8K0
AI网络爬虫-从当当网批量获取图书信息
你是一个Python爬虫专家,一步步的思考,完成以下网页爬取的Python脚本任务:
AIGC部落
2024/06/24
1260
AI网络爬虫-从当当网批量获取图书信息
10个数据清洗小技巧,快速提高你的数据质量
数据质量在数据分析中的重要性毋庸置疑,其直接影响数据的产出和数据价值的高低,通常我们对数据质量的判断主要依据准确性、完整性和一致性三方面。但是,这几点原始数据往往并不具备。所以数据清洗成为了数据分析的重要前提,并且占据了整个数据分析工作中80%的时间。
Spark学习技巧
2021/01/11
2K0
10个数据清洗小技巧,快速提高你的数据质量
7步搞定数据清洗-Python数据清洗指南
作者:KOALA https://zhuanlan.zhihu.com/p/60241672
统计学家
2019/07/22
4.6K0
7步搞定数据清洗-Python数据清洗指南
数据清洗(data cleaning)的重要性
之前经常和临床试验数据打交道,无论是来自手动录入的数据还是取自数据库的数据,在完成数据获取这一步后,感觉有80%甚至90%的时间和精力会用在做数据清洗(data cleaning)这一环节,即“增”“删”“查”“改”,通过data cleaning要让我们的数据成为可以进入模型的状态,也是就是清洁的数据(tidy data/clean data),过不了这一关,后面的建模就无法实现。
陆勤_数据人网
2020/06/28
2.1K0
数据清洗(data cleaning)的重要性
数据清洗与管理之dplyr、tidyr
先前已经讲过R语言生成测试数据、数据预处理和外部数据输入等内容,但这仅仅是第一步,我们还需要对数据集进行筛选、缺失值处理等操作,以便获得可以应用于建模或者可视化的数据集(变量)。接下来就以鸢尾花测试数据集进行进一步的数据管理和筛选操作。
1480
2019/06/20
1.9K0
数据清洗与管理之dplyr、tidyr
[R数据科学]tidyverse数据清洗案例详解
本中你将学习在R中数据处理简洁的方法,称为tidy data。将数据转换为这种格式需要一些前期工作,但这些工作从长远来看是值得的。一旦你有了整洁的数据和一些包提供的整洁工具,您将花费很少时间将数据从一种表示转换到另一种,从而可以将更多的时间花在分析问题上。
庄闪闪
2021/04/09
1.7K0
数据清洗要了命?这有一份手把手Python攻略
大数据文摘作品,转载要求见文末 作者 | Michael Salmon 编译 | 颖子,江凡 几个月前,我从网站indeed.com上抓取了招聘信息相关数据。相信很多同学都跟我做过同样的事情,想要收集不同城市的各种职位信息,然后建立一个模型来预测它们的相对薪水。 然而在建立模型之前,我需要对抓取的信息进行初步的分析和清洗。本文将简要介绍我在清洗数据过程中使用的一些技巧。 在这个任务中,我使用了python和配套的库,包括pandas和numpy。 之前我已经成功地从美国不同的城市中抓取并保存了大量的招聘信息
大数据文摘
2018/05/25
1.6K0
pandas数据清洗详细教程_excel数据清洗工具
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/10/04
1.1K0
pandas数据清洗详细教程_excel数据清洗工具
数据分析入门系列教程-数据清洗
从今天开始,我们再一起来学习数据分析,共同进步! 首先先来进行一个数据清洗的实战,使用比较经典的数据集,泰坦尼克号生存预测数据。
周萝卜
2020/09/27
8880
数据分析入门系列教程-数据清洗
爱数科案例 | 森林火灾面积预测
森林火灾是一种突发性强、破坏性大、处置救助较为困难的自然灾害。森林火灾不仅烧毁林木,直接减少森林面积,而且严重破坏森林结构和森林环境,导致森林生态系统失去平衡,森林生物量下降,生产力减弱,益兽益鸟减少,甚至造成人畜伤亡。本案例通过探索性分析(EDA)和机器学习构建线性回归模型,预测森林火灾的面积,并分析什么特征是发生森林火灾的重要因素。
数据科学人工智能
2022/03/30
1.4K0
爱数科案例 | 森林火灾面积预测
【Python】机器学习之数据清洗
数据清洗,是数据分析的星光耀眼的序幕,因为原始数据集可能蕴含各种幽灵,而这些隐患将影响最终分析和建模的辉煌表演。通过巧妙的数据清洗,数据的可靠性得以提升,为分析和模型的绚丽演绎打下坚实基石。
SarPro
2024/02/20
2260
【Python】机器学习之数据清洗
第11章_数据处理之增删改
值列表中需要为表的每一个字段指定值,并且值的顺序必须和数据表中字段定义时的顺序相同。
程序员Leo
2023/08/07
2340
第11章_数据处理之增删改
2021年大数据Hive(十二):Hive综合案例!!!
​ 通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频id也使用“&”进行分割。
Lansonli
2021/10/11
1.6K0
推荐阅读
相关推荐
使用网络爬虫自动抓取图书信息
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档