Python中文社区
Python中文开发者的
精神部落
全文简介
本文是先采集拉勾网上面的数据,采集的是Python岗位的数据,然后用Python进行可视化。主要涉及的是爬虫&数据可视化的知识。
爬虫部分
先用Python来抓取拉勾网上面的数据,采用的是简单好用的requests模块。主要注意的地方是,拉勾网属于动态网页,所以会用到浏览器的F12开发者工具进行抓包。抓包以后会发现,其实网页是一个POST的形式,所以要提交数据,提交的数据如下图:
真实网址是:
https://www.lagou.com/jobs/positionAjax.jsonneedAddtionalResult=false&isSchoolJob=0
在上图也可以轻松发现:kd是查询关键词,pn是页数,可以实现翻页。
代码实现
注意:抓取数据的时候不要爬取太快,除非你有其他的反爬措施,比如更换IP等,另外不需登录,我在代码加入了time模块,用于限制爬取速度。
数据可视化
下载下来的数据长成这个样子:
注意标题(也就是列明)是我自己添加的。
导入模块并配置绘图风格
注意:导入模块的时候其他都容易解决,除了wordcloud这个模块,这个模块我建议大家手动安装,如果pip安装的话,会提示你缺少C++14.0之类的错误,导致安装不上。手动下载whl文件就可以顺利安装了。
数据预览
read_csv路径不要带有中文
学历要求
工作经验
Python热门岗位
工作地点
工作地理图
本文作者
挖掘机小王子,数据分析爱好者。
博客:zhihu.com/people/WaJueJiPrince
领取专属 10元无门槛券
私享最新 技术干货