Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >大数据通识课案例 | 当当网图书数据清洗

大数据通识课案例 | 当当网图书数据清洗

作者头像
数据科学人工智能
发布于 2022-04-01 06:33:36
发布于 2022-04-01 06:33:36
8510
举报

爱数科(iDataScience)是一个拖拽式数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 www.idatascience.cn

//v.qq.com/txp/iframe/player.html?origin=https%3A%2F%2Fmp.weixin.qq.com&containerId=js_tx_video_container_0.8001625478920908&vid=h3272ub4q2z&width=677&height=380.8125&autoplay=false&allowFullScreen=true&chid=17&full=true&show1080p=false&isDebugIframe=false

本案例使用爱数科(idatascience)的字符串匹配、字符串分割、字段重命名等组件,对从当当网抓取的机器学习相关的图书信息进行数据清洗,处理为符合我们要求的数据。本案例适合作为大一大数据通识导论课程数据清洗模块的教学案例。

1. 读数据表

首先,我们读取原始数据。数据集各字段的介绍可参考:

http://idatascience.cn/dataset-detail?table_id=2

可以看出原始数据中有许多问题,例如当前价格带有人民币符号'¥',评论数含有文本等等。

2. 提取价格数值

我们去掉当前价格这一列中的 '¥' 符号,使用正则表达式\d{1,4}\.{0,1}\d{0,2}将当前价格中的数值提取出来,保存为新的一列当前价格_match

3. 提取评论数

对于评论数这一列使用正则表达式\d{1,4}\.{0,1}\d{0,2}提取数值,保存为评论数_match

4. 提取星级数值

对于星级这一列使用正则表达式\d{1,4}\.{0,1}\d{0,2}提取数值,保存为星级_match

5. 星级数值除以20

接着将提取出的星级数值除以20,将取值范围转换为[0,5]。

可以看到,经过列数值计算后的数据更适合数据的建模计算和可视化分析了。

6. 出版信息字符串分割

接下来我们处理出版信息这一列,从原始数据中可以看到,这一列主要包含三个信息,分别是作者、出版日期、出版社。它们以“/”分隔,并且存放在一个数据单元中,我们将它们分别取出,然后单独存为三列。

7. 书名去掉【】

书名信息中混合着简介信息,观察原始数据中书名一列,能找到一些规律。除去一些包含在 【】和 [] 中间的标注信息,剩余的内容中书名和其他内容基本是由空格隔开的。所以我们首先将【】和 [] 去掉,然后按照空格分隔字符串,第一个内容便是书名。

首先在书名一列中去掉【】中的信息,并将结果保存为书名_replace

8. 书名去掉[]

接着在书名_replace一列中去掉[]中的信息,保存为书名_replace_replace

9. 书名字符串分割

去除方括号【】和[]后我们把书名_replace_replace列中文字根据空格进行字符串分割,并进行分列。

10. 删除不需要的数据列

在原始数据中和上面操作生成数据中有许多冗余数据列,我们把不需要的数据列都删除掉。

11. 数据字段重命名

最后,我们将数据集各列特征名称修改为各列数据的信息种类。

原始数据集中含有文字数字混杂、量纲不同等等问题。经过数据清理,原始数据集已经适用于进一步的建模计算和可视化处理了。

  • 案例在线地址:http://idatascience.cn/case-detail?experimentId=320
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯V265编码器:给用户以完备的265体验
大家好,我是张贤国,毕业后长期从事于视频编码标准制定(HEVC、VVC),以及视频编码器(H.265)研发工作,2017年加入腾讯,主要负责视频编码研发相关工作。本次分享将重点介绍V265编码器的业务体验优化,包括码率控制优化以及业务适配相关的优化。主要内容可以分为三个部分,首先简单介绍V265的最新情况,然后重点讲解V265在码率控制方面所做的一些优化,最后会介绍V265编码器在业务落地过程中遇到的一些问题与解决方案。
LiveVideoStack
2019/09/17
4.7K0
腾讯V265编码器:给用户以完备的265体验
透过 Top 500 美拍短视频看 AV1 性能
AV1 以其出色的压缩性能,无疑是自 2017 年以来备受关注的新生代视频编码标准。业界也相继对 AV1 进行了一些评测工作,如 Facebook、Netflix 对它的编码复杂度也从早期的 VP9 的近千倍降到了百倍。为了验证 AV1 在短视频上的性能,美图音视频团队自 2018 年 11 月,基于 Top 500 美拍短视频进行了一次全面的 AV1 性能评估,对标编码器采用在实际生成环境中使用的主流视频编码器 x264、x265、VP9。
LiveVideoStack
2019/07/01
1.2K0
透过 Top 500 美拍短视频看 AV1 性能
精致前处理,精准码控 — 极致视觉效果
大家好,我是来自腾讯视频的汪亮,主要负责腾讯视频业务的视频编解码,以及图像前处理的工作。今天的分享内容主要分为两个方面:精准的编码码控和精致的图像前处理。其主要目的是为了使终端用户在看视频时有最好的画质体验。此外,在文后简单介绍了我们的下一步工作方向和内容。
LiveVideoStack
2021/09/01
5730
视频编码质量评价
视频已经成为我们现代生活中不可或缺的元素,众所周知,视频的原始数据量大的惊人,不利于存储和传输!于是乎有了视频编码,不同的编码器,不同的参数,软件与硬件,到底哪一种编码编的好呢?于是乎就有了视频编码质量评价!一起来看看!
视界音你而不同
2021/01/06
2K1
视频编码质量评价
ICIP2020 Facebook 业界研讨会
本文来自ICIP2020,FaceBook的工程师们为我们呈现了这个媒体行业的研讨会,内容包括4个部分,最后是小组讨论环节。
用户1324186
2021/04/14
2790
视频编码标准和FB的提升工作
本文来自Video Scale 2020,演讲者是来自Facebook的研究科学家Ioannis Katsavounidis。演讲题目是视频编码标准和FB的提升工作。演讲分为如下几个部分。
用户1324186
2020/12/28
8790
视频编码标准和FB的提升工作
基于 SVT-AV1 的高效视频点播应用解决方案
SVT-AV1 在 2020年 8月已经被 AOM Sorftware Implementation Working Group (SIWG) 采用为参考软件,并且已经开源。
用户1324186
2021/12/27
1.6K0
基于 SVT-AV1 的高效视频点播应用解决方案
easyVMAF:在自然环境下运行VMAF
原文链接 / https://ottverse.com/vmaf-easyvmaf/
LiveVideoStack
2020/12/16
2.4K0
easyVMAF:在自然环境下运行VMAF
极速高清——给你带来全新的高清视野
很生气!!!我才刚落地,就因游戏界面糊了一下,阻止了我捡枪的步伐,就被不知道从哪蹿出来的家伙给打死了!!!瞬间落地成盒!!!
腾讯云音视频
2018/09/12
3.1K1
极速高清——给你带来全新的高清视野
SLC及MSU结果揭晓:腾讯云-媒体处理MPS产品全面领先
近期备受媒体处理界瞩目的两大评测结果出炉,以腾讯明眸为技术底座的腾讯云-媒体处理MPS在所参加的评测中,均取得了优异的成绩。其中7月7日Streaming Learning Center 发布的云厂商最新H.264 Per-title编码评测报告中,腾讯云-媒体处理MPS在所参评的三个大项中获得全部最优(Excellent);在5月25日最新发布的MSU云端转码评测中,腾讯云-媒体处理MPS在所参加的全部赛道(客观、主观、质量/成本 )所有比赛中(H.264、H.265、AV1)获得多项第一;值得一提的是,
腾讯云音视频
2022/07/26
1.1K0
SLC及MSU结果揭晓:腾讯云-媒体处理MPS产品全面领先
衡量视频质量有哪些指标和工具?
https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/Buyers-Guide-to-Video-Quality-Metrics-130675.aspx
LiveVideoStack
2019/07/01
9.3K0
衡量视频质量有哪些指标和工具?
视频编码器评测 - 客观评价指标
峰值信噪比 (PSNR) 表示信号最大功率与影响精度的噪声功率的比值,单位为分贝 (dB) 。一般用的最多,缺点有时候分数与人眼观感差距较大,因为 PSNR 没有考虑亮度、结构等信息对于视频质量的影响,故后续也出现了 HDR-PSNR 等方法。
不会跳舞的鸟
2022/11/16
1.2K0
视频编码器评测 - 客观评价指标
FFmpeg 学习
ffmpeg 为了保证数据的精度与完整性,有一个 AVRational 数据类型,就是一个有理数(分数)
不会跳舞的鸟
2022/11/16
8120
【视频编码】 Content Aware ABR技术(二)
上次我们回顾了Content Aware ABR的使用场景和基本原理,并梳理了Netflix的per-title和per-chunk技术相关研究进展。本文将主要介绍YouTube关于ABR的一些研究进
用户1324186
2018/03/06
2.2K0
【视频编码】 Content Aware ABR技术(二)
2021年MSU世界视频编码器大赛结果公布,腾讯H.266/VVC编码器首次参赛崭露头角
摘要 2021年10月30日,2021年MSU世界视频编码器大赛FullHD客观结果正式揭晓。由腾讯自主研发的支持最新国际视频编解码标准H.266/VVC的Tencent266编码器在竞争最激烈的高清离线赛道中取得Y-VMAF(v0.6.3、v0.6.2、v0.6.1)、Y-VMAF-NEG(v0.6.1)、Y-PSNR第一名的好成绩。MSU编码器大赛是视频编码领域的重要赛事,近年来在业界的影响力越来越大。Tencent266在MSU比赛中取得好成绩,是腾讯在国际视频编解码标准制定领域跻身世界前列后,
腾讯多媒体实验室
2021/11/22
1.8K0
实战 NVENC 快速编码存档视频
使用显卡进行视频编码加速其实并不是什么新鲜技术,早在2011年 Intel 就在处理器中增加了名为 Quick Sync 的硬件编码单元用以加速视频处理。而 Nvidia 这边利用 CUDA 核心的通用计算能力进行视频编码加速时间还要更早一些。但彼时受限于技术水平和编码规范本身,显卡硬编码除了速度之外优势似乎并不明显。对于低码率区间,硬件编码的画质更是可以用惨不忍睹来形容。
reizhi
2022/09/26
1.4K0
实战 NVENC 快速编码存档视频
VMAF:未毕之旅
大家好,我是来自Netflix视频算法组的李智,本次将主要为大家分享我们针对VMAF的探索历程,包括VMAP的简史、基本原理和我们近期的一些工作。
LiveVideoStack
2019/10/23
2.1K0
VMAF:未毕之旅
Shopee 视频处理技术后台应用
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 目录 1. 背景 2. Shopee 视频技术落地产品 3. Shopee 视频相关后台服务     3.1 直播/点播转码     3.2 直播连麦     3.3 多人会议混流     3.4 视频后台编辑 4. 高清低码     4.1 视频处理的一般流程     4.2 Shopee 高清低码优化方案 5. 性能优化     5.1 编码器端上优化     5.2 一入多出编码 东
LiveVideoStack
2023/04/04
5820
Shopee 视频处理技术后台应用
Facebook:AV1比x264和libvpx-VP9提升至少30%
改进视频压缩对于更敏捷、更高质量地传输视频文件非常重要,同时使用更少的带宽和存储空间。从4K流媒体传输到智能手机的视频聊天及笔记本电脑的屏幕共享一切都可以通过更强质量更小的压缩编码视频。
LiveVideoStack
2021/09/01
7460
探究一下iSize的编码预处理魔法!
原标题:Review: iSize BitSave Video Preprocessing
用户1324186
2020/04/02
1.2K0
推荐阅读
相关推荐
腾讯V265编码器:给用户以完备的265体验
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档