首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫教程:简单使用scrapy爬虫框架批量采集网站数据

前言

本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

本篇文章就使用python爬虫框架scrapy采集网站的一些数据。

基本开发环境

Python 3.6

pycharm

如何安装scrapy

在cmd命令行当中pip install scrapy就可以安装了。但是一般情况都会出现网络超时的情况。

建议切换国内常规源安装pip install -i国内常规地址包名

例如:

国内常用源别名地址:

你可能会出现的报错:

在安装Scrapy的过程中可能会遇到VC ++等错误,可以安装删除模块的离线包

Scrapy如何爬取网站数据

本篇文章以豆瓣电影Top250的数据为例,讲解一下scrapy框架爬取数据的基本流程。

豆瓣Top250这个数据就不过多分析,静态网站,网页结构十分适合写爬取,所以很多基础入门的爬虫案例都是以豆瓣电影数据以及猫眼电影数据为例的。

Scrapy的爬虫项目的创建流程

1.创建一个爬虫项目

在Pycharm中选择Terminal在Local里面输入

scrapy startproject +(项目名字)

2.cd切换到爬虫项目目录

3.创建爬虫文件

scrapy genspider(+爬虫文件的名字)(+域名限制)

这就对于scrapy的项目创建以及爬虫文件创建完成了。

Scrapy的爬虫代码编写

1,在settings.py文件中关闭robots协议默认是True

2,在爬虫文件下修改起始网址

把start_urls改成豆瓣导航网址的链接,也就是你爬取数据的第一页的url地址

3,写解析数据的业务逻辑

爬取内容如下:

douban_info.py

itmes.py

middlewares.py

pipelines.py

setting.py

4,运行爬虫程序

输入命令scrapy crawl +爬虫文件名

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210225A08XUK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券