之前有一个讨论:
文本分析,一个很重要的环节就是网络的数据爬取。爬虫是获取数据的一个重要手段,很多时候我们没有精力也没有资金去采集专业的数据,自己动手去爬数据是可行也是唯一的办法了。所以,本文对如何“家养”爬虫的技术资料进行了系统的总结。
因为Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,因此本文总结的资料主要是关于Python的,适用于零基础的同学。
1. Python
如果完全没有Python的基础,建议看下面的教程如个门:
【统计师的Python日记】
(直接点击)
2. 初级爬虫
【推荐资料】
Python爬虫学习系列教程
http://cuiqingcai.com/1052.html
这个资料可以帮助我们了解一下爬虫的初级内容,如URL的含义、urllib和urllib2库的使用、正则表达式、Cookie的使用等等,也熟悉一下后面可能用到的基本名词,比如response、request等。
(在微信公众号里回复【sasre】,看正在更新的SAS正则表达式系列,至少可以了解一下什么是正则表达)
3. Scrapy
大名鼎鼎的Python爬虫框架—Scrapy。Scrapy是为了网页抓取所设计的应用框架,也可以用在获取API(例如 Amazon Associates Web Services ) 所返回的数据或者通用的网络爬虫。
这里分享一些数说君总结的资料。
(1)Scrapy的安装
分享一下我自己在windows环境下的安装方法:
以上就完成了安装。在cmd中尝试输入
scrapy startproject myspider
咦,已经创建一个爬虫项目了呢!
(2)入手一个例子
我个人的习惯是,不喜欢一上来就学习很多理论性的东西,偏好从一个例子入手,依样画葫芦的写一遍代码,让我更有想要了解的动力。
【推荐资料】
建立一个简单的爬取南邮新闻标题的爬虫demo
http://t.cn/RLeN3eF
这篇文章用一个很简单的例子,把整个流程走了一遍,初步了解的Scrapy的框架,也留了很多不懂的地方,以待下一步的学习。
(3)系统学习Scrapy
当然是官方文档了:
http://doc.scrapy.org/en/latest/intro/install.html
这里也有好人进行了翻译:
https://scrapy-chs.readthedocs.org/zh_CN/1.0/index.html
当涉及到一些其他的知识的时候,文档会给出相关的资料链接,这点真的太棒了,并且中文版本或给出中文的资料链接!
比如关于xpath的:
(4)试着爬取一些熟悉的网站
一边学,可以一边试试手,爬一下自己熟悉的网站。
这里有几个例子供大家参考
关于Python爬虫,欢迎大家一起交流,在最下方的评论区里留言。
也欢迎参与文本分析的讨论:
将会继续为大家带来网页爬取、文本分析的资料总结。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有