前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬取拉勾网大数据相关岗位薪资信息存到excel,并作数据分析

爬取拉勾网大数据相关岗位薪资信息存到excel,并作数据分析

作者头像
机器学习AI算法工程
发布于 2018-03-13 08:47:49
发布于 2018-03-13 08:47:49
1.2K00
代码可运行
举报
运行总次数:0
代码可运行

今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。

第一步:分析网站的请求过程

我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求,将我们所需要的内容通过浏览器解析,呈现在我们的面前。

可以看到我们发出的请求当中,FormData中的kd参数,就代表着向服务器请求关键词为Python的招聘信息。

分析比较复杂的页面请求与响应信息,推荐使用Fiddler,对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以,比如像火狐的FireBug等等,只要轻轻一按F12,所有的请求的信息都会事无巨细的展现在你面前。

经由分析网站的请求与响应过程可知,拉勾网的招聘信息都是由XHR动态传递的。

我们发现,以POST方式发出的请求有两个,分别是companyAjax.json和positionAjax.json,它们分别控制当前显示的页面和页面中包含的招聘信息。

可以看到,我们所需要的信息包含在positionAjax.json的Content->result当中,其中还包含了一些其他参数信息,包括总页面数(totalPageCount),总招聘登记数(totalCount)等相关信息。

第二步:发送请求,获取页面

知道我们所要抓取的信息在哪里是最为首要的,知道信息位置之后,接下来我们就要考虑如何通过Python来模拟浏览器,获取这些我们所需要的信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 1 def read_page(url, page_num, keyword):  # 模仿浏览器post需求信息,并读取返回后的页面信息 
 2     page_headers = { 
 3         'Host': 'www.lagou.com', 
 4         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 
 5                       'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3', 
 6         'Connection': 'keep-alive' 
 7         } 
 8     if page_num == 1: 
 9         boo = 'true'
10     else:
11         boo = 'false'
12     page_data = parse.urlencode([   # 通过页面分析,发现浏览器提交的FormData包括以下参数
13         ('first', boo),
14         ('pn', page_num),
15         ('kd', keyword)
16         ])
17     req = request.Request(url, headers=page_headers)

18     page = request.urlopen(req, data=page_data.encode('utf-8')).read()
19     page = page.decode('utf-8')
20     return page

其中比较关键的步骤在于如何仿照浏览器的Post方式,来包装我们自己的请求。

request包含的参数包括所要抓取的网页url,以及用于伪装的headers。urlopen中的data参数包括FormData的三个参数(first、pn、kd)

包装完毕之后,就可以像浏览器一样访问拉勾网,并获得页面数据了。

第三步:各取所需,获取数据

获得页面信息之后,我们就可以开始爬虫数据中最主要的步骤:抓取数据。

抓取数据的方式有很多,像正则表达式re,lxml的etree,json,以及bs4的BeautifulSoup都是python3抓取数据的适用方法。大家可以根据实际情况,使用其中一个,又或多个结合使用。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 1 def read_tag(page, tag): 
 2     page_json = json.loads(page) 
 3     page_json = page_json['content']['result']   
 4     # 通过分析获取的json信息可知,招聘信息包含在返回的result当中,其中包含了许多其他参数 
 5     page_result = [num for num in range(15)]  # 构造一个容量为15的占位list,用以构造接下来的二维数组 
 6     for i in range(15): 
 7         page_result[i] = []  # 构造二维数组 
 8         for page_tag in tag: 
 9             page_result[i].append(page_json[i].get(page_tag))  # 遍历参数,将它们放置在同一个list当中
10         page_result[i][8] = ','.join(page_result[i][8])
11     return page_result   # 返回当前页的招聘信息

第四步:将所抓取的信息存储到excel中

获得原始数据之后,为了进一步的整理与分析,我们有结构有组织的将抓取到的数据存储到excel中,方便进行数据的可视化处理。

这里我用了两个不同的框架,分别是老牌的xlwt.Workbook、以及xlsxwriter。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 1 def save_excel(fin_result, tag_name, file_name):
 2     book = Workbook(encoding='utf-8')
 3     tmp = book.add_sheet('sheet')
 4     times = len(fin_result)+1
 5     for i in range(times):  # i代表的是行,i+1代表的是行首信息
 6         if i == 0:
 7             for tag_name_i in tag_name:
 8                 tmp.write(i, tag_name.index(tag_name_i), tag_name_i)
 9         else:
10             for tag_list in range(len(tag_name)):
11                 tmp.write(i, tag_list, str(fin_result[i-1][tag_list]))
12     book.save(r'C:\Users\Administrator\Desktop\%s.xls' % file_name)

首先是xlwt,不知道为什么,xlwt存储到100多条数据之后,会存储不全,而且excel文件也会出现“部分内容有问题,需要进行修复”我检查了很多次,一开始以为是数据抓取的不完全,导致的存储问题。后来断点检查,发现数据是完整的。后来换了本地的数据进行处理,也没有出现问题。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 1 def save_excel(fin_result, tag_name, file_name):  # 将抓取到的招聘信息存储到excel当中
 2     book = xlsxwriter.Workbook(r'C:\Users\Administrator\Desktop\%s.xls' % file_name)  # 默认存储在桌面上
 3     tmp = book.add_worksheet()
 4     row_num = len(fin_result)
 5     for i in range(1, row_num):
 6         if i == 1:
 7             tag_pos = 'A%s' % i
 8             tmp.write_row(tag_pos, tag_name)          
 9         else:10             con_pos = 'A%s' % i
11             content = fin_result[i-1]  # -1是因为被表格的表头所占
12             tmp.write_row(con_pos, content)13     book.close()

这是使用xlsxwriter存储的数据,没有问题,可以正常使用。

到从为止,一个抓取拉勾网招聘信息的小爬虫就诞生了。

目前,大数据是一个非常热门的话题,受到很多人的关注和追捧,其创造的相关职业也受到大家的青睐。但大数据相关职业究竟是什么样,有怎么样的要求,有怎样的待遇还不为多数人所知,为了更好的了解大数据相关职业要求及其福利待遇进行本次数据分析

本次以大数据为关键词,采集的数据包括所有大数据相关的岗位数据。一共采集到99页共条1476数据,每一条数据有个50变量。为了关注主要因素,在数据准备过程中将去除不必要的变量,由于数据量较多,对少数的存在缺失值的行也进行清除,重新构造易于分析和作图的数据集。

数据分析

1. 大数据相关职业招聘信息在全国各城市分布情况的分析

由各城市大数据招聘信息数量的分布可知,目前大数据相关职业的招聘主要集中在北京、上海、广州、杭州、深圳这几个经济相对更发达的地区,尤其是首都北京,是这几个城市的3倍之多。出现这种现象也不足为怪,毕竟大数据还是一个新型的产业,很多二三线城市的传统企业和公司还处在观望之中。对于北京数量之多,个人认为主要与国家政策、创业潮有关,毕竟是首都,能快速嗅觉到国家大力支持发展大数据的苗头,同时‘互联网+’的创业大潮也推进了各公司对大数据人才的渴求。

2. 大数据相关职业类型分析

由大数据相关职业工作类型的分布可知,大数据技术人才最受欢迎,其次是产品和运营。有人说大数据科学家是会编程的统计学家,从该图可以看出这个‘编程的能力’以及处理、挖掘数据的能力还是占据重要因子的。而对于产品和运营,可能与最近讨论得很火的‘人物画像’‘精细化运营’等有关,运用大数据的相关知识实现精准营销。当然,大数据在金融、市场销售等方面也逐渐受到重视,个人认为这是一个趋势,毕竟大数据只是一种手段,更重要的是如何把大数据运用的各个行业,为行业服务。

3. 大数据相关职业招聘对技能要求的分析

上面讨论到大数据技术人才最受欢迎,再继续看看大数据究竟对那种技能或那种语言和工具比较青睐。

由气泡分布图(圆圈越大,表示其重要程度越高)可知最受青睐的前10个大数据工具是HadoopJavaSpark、Hbase、Hive、Python、linux、Strom、Shell编程、mysql。其中Hadoop和Spark都是分布式并行计算框架,目前看来Hadoop占主导优势,Spark位居其后,但Spark有迎头赶上的趋势。Hadoop是由Java实现的,所以java排在其后也不奇怪。Hbase是一个开源的分布式的列式数据库,MySQL是一种开源的关系型数据库,Hive是一种数据仓库,Strom是一种流式处理框架,而Python/Shell是两种脚本编程语言,Linux是一个操作系统

上面这个图如果看起来比较费劲,我们来看看下面这个图:

4. 大数据相关职业招聘对学历要求的分析

由上图可知大数据相关职业对学历的要求主要是本科以上,其次是大专,而对于学历高的硕士和博士貌似不太感冒。由于大数据主要对技术人才感兴趣,工作的实践性比较高,可能学历高的人才反而占不到优势。我们可以接着对比一下对工作经验的要求再做深入的分析。

5. 大数据相关职业招聘对工作经验的分析

由上图可知,大数据相关职业对有3-5年工作经验的人才最青睐,其次是1-3年和5-10年。对比上面对学历的要求可知,大数据相关职业确实是青睐有工作经验的本科生,而不是学历高但经验缺乏的硕士生和博士生。

6. 大数据相关职业的薪资分析

由图可知,大数据相关职业总体工资水平还是有较大的波动,但也主要集中在10k-30k的范围内。我们看看不同工作类型的工资的分布情况:

由图可知金融行业相关的大数据职位的平均工资最高,其中产品、技术以及职能的平均工资相差不大,市场与销售、运营的工资相对较低,但平均工资也在10K以上。总的来说,大数据相关职业的薪资水平随工作经历等存在一定的波动,但工资来说还是相对较高的。

7. 大数据相关职业的福利待遇分析

从有大数据人才招聘需求的公司提供的福利来看,其中最多的就是五险一金的基本保障、其次是带薪休假、弹性工作、双休、年终奖、绩效奖等,总的来说这些公司福利还算不错,但从这些数据里可以看出,相比于一些大的国企,这些公司对于解决户口等同学们关注得比较多的,没有提及。

8. 有大数据人才招聘需求的公司融资情况分析

从上图可知,有大数据人才招聘需求的公司中上市公司还是占据最大的比例,排在前面的几位也都是成长型或成熟型的融过资的公司,排在后面几位的公司除了一个成熟型D轮以上,其它要么没有融资,要么不需要融资,这里可以说明上市公司或刚拿到融资的成长型公司对于大数据人才的渴求更高。

结论

从面的分析,大致可以得出下面几个重要的结论:

a. 大数据还只是北上广等经济发达城市发展得很热的新型行业,二三线城市还有待发展,所以要找大数据相关的工作就去北上广吧;

b. 大数据相关工作岗位主要以技术、产品、运营为主,而且技术占据大半江山,而技术技能要求中主要以Hadoop/java/Spark/Hbase/Hive/Python/MySQL/Strom/shell等为主,所以才要从事大数据相关岗位不防从学习这些技能开始;

c. 大数据相关职业对学历的要求主要以本科为主,就算是大专学历也是很受欢迎的,而博士和硕士却不受青睐,这是一个要求工作经验为主的行业,所以就算你学历不高,想从事大数据相关工作也是不成问题的;

d. 大数据相关工作岗位的薪资还是算比较高的,福利待遇方面也还不错,其中金融大数据人才的工资最高;

目前招聘大数据人才的公司主要是以上市公司和成长型的融资公司为主。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-07-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫:爬取拉勾网职位并分析
本文从拉勾网爬取深圳市数据分析的职位信息,并以CSV格式保存至电脑,之后进行数据清洗,生成词云,进行描述统计和回归分析,最终得出结论。
数据科学社区
2018/07/30
1.6K0
Python爬虫:爬取拉勾网职位并分析
新手向-爬取分析拉勾网招聘信息
然后在拉勾网搜索关键词 算法工程师 回车,然后点击下一页、下一页,此时开发者工具里的Network 下XHR(表示该网站是以Ajax方式获取刷新信息的)应当如下图(图中已标明了一些关键信息):
爱写bug
2019/07/05
6720
新手向-爬取分析拉勾网招聘信息
通过招聘要求看数据分析师岗位
想学习数据分析,但不知道从哪里下手,那么直接看看公司招人的条件,总结一下,你就知道学习什么了。基于此,小编爬取了拉勾网上面关于数据分析的招聘信息,并存储到MySQL数据库,最后进行数据分析。
张俊红
2019/05/14
1.3K0
通过招聘要求看数据分析师岗位
洞察 | 深圳数据分析师的职业前景如何?爬完拉勾数据给你分析 (附代码和过程)
通过对局部地区某一岗位的总体分析,找出该地区该职位的职业发展前景规律。本文基于拉勾上2016年12月到2017年1月深圳地区数据分析师招聘数据,为这一行业的朋友作为参考;虽然数据略为过时,但变化也不大,规律依然适用。 在深圳 1、数据分析师主要还是开发类职业。开发类的职位,无论是市场需求还是薪资都是无可撼动的最高。 2、地区方面:如果你要在深圳找数据分析师的岗位,请去南山区,优先去科技园附近。 3、薪资方面,20K是业内中等水平; 4、学历方面,除非你直接攻读相关专业的博士,否则本科足矣; 5、技能方面:
灯塔大数据
2018/04/04
8290
洞察 | 深圳数据分析师的职业前景如何?爬完拉勾数据给你分析 (附代码和过程)
用python对拉勾网5000条招聘进行数据分析
本文由作者:sevenry 原创投稿 声明:本文所公布代码及数据仅作学习用,若别有用途则后果自行承担。 根据@种瓜从拉勾网爬下来的数据文件 爬虫部分源代码:https://github.com/wwj718/jobSpider/blob/master/lagou/spiders/lagou_spider.py python数据分析 代码: https://github.com/sevenry/my_data/upload/master/160813 利用pandas库对其进行一定的处理,用于分析全国总的
机器学习AI算法工程
2018/03/14
1.3K0
用python对拉勾网5000条招聘进行数据分析
[爬虫+数据分析] 分析北京Python开发的现状|文末送书5本
相信各位同学多多少少在拉钩上投过简历,今天突然想了解一下北京Python开发的薪资水平、招聘要求、福利待遇以及公司地理位置。既然要分析那必然是现有数据样本。本文通过爬虫和数据分析为大家展示一下北京Python开发的现状,希望能够在职业规划方面帮助到大家!!!
龙哥
2019/07/30
7530
[爬虫+数据分析] 分析北京Python开发的现状|文末送书5本
爬取14000+条数据!分析招聘网站岗位信息
开头简单介绍下:本文章主要内容为利用网络爬虫与数据分析对所有招聘岗位信息进行了统一清洗、合并、分析、可视化,而本篇文章重点介绍分析和可视化。写成文章也是旨在希望有同样需要的朋友能获取到有帮助的信息,对目前的行业人才需求有一个大概的了解,选择更好的方向。
Python数据科学
2019/05/10
8210
爬取14000+条数据!分析招聘网站岗位信息
数据分析师薪资有多高?爬了29个城市的数据告诉你答案
想要从事数据分析师这个岗位,那自然首先需要对这个岗位有所了解。最直接、最真实的方式就是从企业那里获得需求讯息,这样才最能够指导自己的学习方向和简历准备。本文即是要利用爬虫爬取拉勾网上数据分析这一岗位的信息,然后进行一些探索和分析,以数据分析来了解‘数据分析’。 数据来源 本项目所使用的数据集全部来自拉勾网,是通过集搜客这一网络爬虫工具来爬取的。之所以选择拉勾网作为本项目的数据源,主要是因为相对于其他招聘网站,拉钩网上的岗位信息非常完整、整洁,极少存在信息的缺漏。并且几乎所有展现出来的信息都是非常规范化的,极
钱塘数据
2018/03/06
3K0
数据分析师薪资有多高?爬了29个城市的数据告诉你答案
2分钟完成30*15页拉勾网职位需求关键词的抓取
不同的语言,有它们各自擅长的应用场景,选择一门适合自己的语言需要勇气与毅力。 而当你下定决心要在甄选的语言上一条道走到黑的时候,孰不知,选择才刚刚开始。 一门编程语言往往有许多分支,每一个分支都需要掌握不同的技能,我们时常会感到困惑:怎么才能较为准确的分配技能点? 需求决定选择,从招聘方的角度来观察,看看我们未来的金主需要现在的你我掌握什么技能,或许能够从繁多的技术分支中受到启发: 一、获取职位需求数据 通过观察可以发现,拉勾网的职位页面详情是由http://www.lagou.com/jobs/+**
机器学习AI算法工程
2018/03/13
8040
2分钟完成30*15页拉勾网职位需求关键词的抓取
用数据分析来看哪种 Python 程序员最赚钱?
本文以Python爬虫、数据分析、后端、数据挖掘、全栈开发、运维开发、高级开发工程师、大数据、机器学习、架构师这10个岗位,从拉勾网上爬取了相应的职位信息和任职要求,并通过数据分析可视化,直观地展示了这10个职位的平均薪资和学历、工作经验要求。
sergiojune
2018/10/23
9980
用数据分析来看哪种 Python 程序员最赚钱?
如何拿到高薪数据分析师offer?从精准解读一篇招聘信息开始!
大家好,我是大鹏,目前是一名数据分析师,从非本专业成功转行,创立“数据团学社”“城市数据研习社”,运营数十万人社群,联合发起“城市数据团”。
IT阅读排行榜
2018/12/10
6380
如何拿到高薪数据分析师offer?从精准解读一篇招聘信息开始!
生信职位拉勾网爬取-附生信行业职业发展交流群
大家好,之前答应健明师兄爬取一下招聘网的信息,今天我就给大家推送一条生物信息行业就业信息的一些信息,数据源来自拉勾网 首先是整个网络爬虫的代码 1.导入相应的库 import requests import math import pandas as pd import time 2.构造爬取函数 def get_json(url,num): '''''从网页获取JSON,使用POST请求,加上头部信息''' my_headers = {
生信技能树
2018/11/22
6300
【数据分析】让数据决策你的行为——拉勾网数据分析
前言 我们每天都在产生数据,出行,社交,购物,吃饭 等等,每一个行为伴随着数据的产生,如果将这些数据收集起来,并加以处理分析便可以反过来影响你的行为。 举个最简单的例子在各大电商网站搜索自己想买的商品,这一过程就产生了数据,电商网站会记录你所搜的商品数据,并稍作处理分析,基本就可以计算出你所需要购买的商品, 然后计算最合适你的商品,并以广告形式推送给你,最后你很有可能会从他推荐的商品中选一个付款,这个例子就形像的解释了,你是如何产生数据,而后数据又是如何影响你的行为的。 前些日子突然想到了如下几个问题, 在
小莹莹
2018/04/23
8590
【数据分析】让数据决策你的行为——拉勾网数据分析
数据分析行业招聘职位分析报告--基于拉勾网
大数据时代的到来让数据在公司决策上发挥了越来越大的作用,数据分析师也成为了各大企业的标配,那么各大企业又会愿意花多少代价来为数据买单呢?本文将通过从拉勾网爬取到的职位信息来展现「数据分析」职位究竟「钱」景如何:
Awesome_Tang
2018/09/11
1.5K0
数据分析行业招聘职位分析报告--基于拉勾网
轻松爬取拉勾网招聘岗位信息
最近发现一些朋友想要跳槽,正值疫情,也不知道现在市场的如何,同时目前的IT行业更是越来越难,技术革新越来越快,对新的岗位的需求也是不断的变化,因此就会想知道现在的应聘岗位对面试者的要求有哪些,各地的某个岗位薪资范围大概是多少等信息时候,我们就需要到某个招聘网站上不断的刷页面,看数据,但是简单的想一下,可以通过Python脚本来批量的分析招聘网站上各个岗位在不同城市的需求,高效的快捷的方便我们掌握大致的方向。
公众号: 云原生生态圈
2020/07/02
7560
轻松爬取拉勾网招聘岗位信息
“数据分析”岗位的数据分析项目
“数据分析”岗位的分析 项目介绍 该项目选用了和鲸社区关于数据分析岗位的数据集来进行分析。项目主要使用“job.csv”文件作为数据源,其中数据文件的主要栏位有职位、城市、公司、薪资、学历、工作经验、行业标签。其中本项目所使用的可计算的栏位为最低薪资、最高薪资、平均薪资、奖金率。本项目所使用的可分类的栏位为职位、城市、学历、工作经验、行业标签。通过对数据进行清洗重塑和分析,再使用plotly等工具进行绘图,实现图表的交互式数据可视化,最后使用flask框架(利用了bootstrap)进行网页上的可视化展示
润森
2022/12/20
1K0
“数据分析”岗位的数据分析项目
Python —— 一个『拉勾网』的小爬虫
本文将展示一个 Python 爬虫,其目标网站是『拉勾网』;题图是其运行的结果,这个爬虫通过指定『关键字』抓取所有相关职位的『任职要求』,过滤条件有『城市』、『月薪范围』。并通过百度的分词和词性标注服务(免费的),提取其中的关键字,这个爬虫有什么用? 有那么一个问题模板,xx 语言 / 方向 xx 月薪需要掌握什么技能 对于这种问题,招聘网站上的信息大概是最为『公正客观』,所以这个爬虫的输出可以『公正客观』的作为求职者的技能树发展指南......个屁;如果全盘相信招聘网上写的,估计离凉凉就不远了。其上面
小小科
2018/05/04
1.3K0
Python —— 一个『拉勾网』的小爬虫
爬取拉勾网招聘信息并使用xlwt存入Excel
通过浏览器自带的开发者工具查看是通过Post方式提交的,数据是通过Ajax(异步加载)得到的
Python攻城狮
2018/08/23
5270
爬取拉勾网招聘信息并使用xlwt存入Excel
用数据分析告诉你数据分析师能挣多少钱
随着大数据时代的到来和数据的市场价值得到认可,数据分析师、进阶一点的还有数据挖掘工程师、甚至是金字塔顶尖的数据科学家,这些作为21世纪最性感的职业已成功吸引无数像笔者这样的热血小青年,阿里的一句“开启AI时代”的口号就足以让我等激动的准备把此身奉献给高大上的数据科学行业。除去像计算机、数学和统计学这些科班出身的童鞋,想要转行投身数据分析的其他行业人士也绝不在少数。但数据分析到底是什么、想要成为一名数据行业的从业者又要具备哪些素质,恐怕这才是大家真正需要关注的焦点。笔者花了一些时间,从数据采集到清洗、分析,从可视化到数据的深度挖掘,一整套数据分析处理流程给大家展示一下目前国内关于数据行业的招聘信息到底有些什么。
IT阅读排行榜
2018/08/16
5890
用数据分析告诉你数据分析师能挣多少钱
从拉勾网数据看深圳数据分析师的职业前景
利用这篇文章提到的方法对拉勾爬虫,然后进行数据分析。通过对局部地区某一岗位的总体分析,找出该地区该职位的职业发展前景规律。本文基于拉勾上2016年12月到2017年1月深圳地区数据分析师招聘数据,为这
小莹莹
2018/04/24
9940
从拉勾网数据看深圳数据分析师的职业前景
推荐阅读
相关推荐
Python爬虫:爬取拉勾网职位并分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验