前言
本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
本篇文章就使用python爬虫框架scrapy采集网站的一些数据。
基本开发环境
Python 3.6
pycharm
如何安装scrapy
在cmd命令行当中pip install scrapy就可以安装了。但是一般情况都会出现网络超时的情况。
建议切换国内常规源安装pip install -i国内常规地址包名
例如:
国内常用源别名地址:
你可能会出现的报错:
在安装Scrapy的过程中可能会遇到VC ++等错误,可以安装删除模块的离线包
Scrapy如何爬取网站数据
本篇文章以豆瓣电影Top250的数据为例,讲解一下scrapy框架爬取数据的基本流程。
豆瓣Top250这个数据就不过多分析,静态网站,网页结构十分适合写爬取,所以很多基础入门的爬虫案例都是以豆瓣电影数据以及猫眼电影数据为例的。
Scrapy的爬虫项目的创建流程
1.创建一个爬虫项目
在Pycharm中选择Terminal在Local里面输入
scrapy startproject +(项目名字)
2.cd切换到爬虫项目目录
3.创建爬虫文件
scrapy genspider(+爬虫文件的名字)(+域名限制)
这就对于scrapy的项目创建以及爬虫文件创建完成了。
Scrapy的爬虫代码编写
1,在settings.py文件中关闭robots协议默认是True
2,在爬虫文件下修改起始网址
把start_urls改成豆瓣导航网址的链接,也就是你爬取数据的第一页的url地址
3,写解析数据的业务逻辑
爬取内容如下:
douban_info.py
itmes.py
middlewares.py
pipelines.py
setting.py
4,运行爬虫程序
输入命令scrapy crawl +爬虫文件名
领取专属 10元无门槛券
私享最新 技术干货