文章/答案/技术大牛

发布

社区首页 >专栏 >Scrapy爬取数据初识

Scrapy爬取数据初识

听城

发布于 2018-04-27 06:26:55

1.7K00

代码可运行

文章被收录于专栏：杂七杂八杂七杂八

运行总次数：0

代码可运行

Scrapy爬取数据初识

初窥Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

基本步骤

选择一个网站
定义您想抓取的数据
编写提取数据的Spider
执行spider，获取数据
查看提取到的数据

安装

控制台执行命令pip install Scrapy,如果执行过程中出现building'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required.则需要在网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载whl文件，pip安装，再重新运行pip install Scrapy，即可

image.png

原理

Scrapy 使用 Twisted这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。

原理

绿线是数据流向，首先从初始URL开始，Scheduler会将其交给Downloader进行下载，下载之后会交给Spider进行分析，Spider分析出来的结果有两种：一种是需要进一步抓取的链接，例如之前分析的“下一页”的链接，这些东西会被传回Scheduler；另一种是需要保存的数据，它们则被送到Item Pipeline那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。组成部分介绍:

Scrapy Engine：负责组件之间数据的流转，当某个动作发生时触发事件
Scheduler：接收requests，并把他们入队，以便后续的调度
Downloader：负责抓取网页，并传送给引擎，之后抓取结果将传给spider
Spiders：用户编写的可定制化的部分，负责解析response，产生items和URL。每一个spider代表一个特定的任务
Item Pipeline：负责处理item，典型的用途：清洗、验证、持久化
Downloader middlewares：位于引擎和下载器之间的一个钩子，处理传送到下载器的requests和传送到引擎的response(若需要在Requests到达Downloader之前或者是responses到达spiders之前做一些预处理，可以使用该中间件来完成)
Spider middlewares：位于引擎和抓取器之间的一个钩子，处理抓取器的输入和输出 (在spiders产生的Items到达Item Pipeline之前做一些预处理或response到达spider之前做一些处理)

一个小例子

创建项目

在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:scrapy startproject book

创建项目

这些文件分别是:

scrapy.cfg: 项目的配置文件 book/: 该项目的python模块。之后您将在此加入代码。 book/items.py: 项目中的item文件. book/pipelines.py: 项目中的pipelines文件. book/settings.py: 项目的设置文件. book/spiders/: 放置spider代码的目录.

建立spider

首先要进入book目录，使用basic模板创建一个spider 建立spider, scrapy genspider douban https://book.douban.com/top250?start=0

spider

pycharm 调试scrapy

建立一个main.py文件，在book文件目录下,保证main.py和自动生成的scrapy.cfg在同一层,写入下面代码。此文件是为了方便再pycharm中调试scrapy，提高开发效率

from scrapy.cmdline import execute
import sys,os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy','crawl','douban'])

scrapy crawl douban即启动，名字为douban的spider

修改setting.py

将setting.py中的遵循robot协议改为False，否则会过滤掉一些url

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

模拟浏览器访问 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0'

提取想要的内容

xpath方式提取

xpath简介

xpath使用路径表达式在xml和html中进行导航。
xpath包含标准函数库。
xpath是一个w3c的标准。

xpath节点关系

父节点
子节点
同胞节点
先辈节点
后代节点

xpath语法

image.png

image.png

image.png

extract_first()是为了防止extract()[0]不存在的时候报错

name = node.xpath('td[2]/div[1]/a/text()').extract_first().strip()
summary = node.xpath('td[2]/p[2]/span/text()').extract_first()

在Shell中尝试Selector选择器一直在pycharm调试xpath太复杂了，因此scrapy提供shell方便测试语法。首先您需要进入项目的根目录，执行下列命令来启动shell:scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/" 注意：当在终端运行Scrapy时，请一定记得给url地址加上引号，否则包含参数的url(例如 & 字符)会导致Scrapy运行失败。

css方式提取

image.png

image.png

image.png

定义Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。类似在ORM中做的一样，您可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个Item。 (如果不了解ORM, 不用担心，您会发现这个步骤非常简单)。首先根据需要从book获取到的数据对item进行建模。我们需要从book中获取名字，描述。对此，在item中定义相应的字段。编辑 book目录中的 items.py 文件:

class BookItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    summary = scrapy.Field()
    pass

代码

GitHub地址https://github.com/zhangpu1211/scrapy

可能遇到的错误

No modle named ‘win32api’

解决方案：pip install -i https://pypi.douban.com/simple/ pypiwin32

为什么有时候自己写的xpath明明对的，却获取不到数据？

原因：F12产生的源码，不同于网页源代码，前者可能是js加载完的源代码。response.xpath()是根据网页源代码来提取信息的。

UserWarning: You do not have a working installation of the service_identity module: 'cannot import name 'opentype''.

解决方案：pip install service_identity --force --upgrade

csv文件输出空一行

在python中的Lib\site-packages\scrapy，编辑该路径下的exporters.py文件，并修改如下内容：

image.png

csv文件中文乱码

用sublime打开文件--以...编码保存--UTF-8 with BOM

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018.02.03 ，如有侵权请联系 cloudcommunity@tencent.com 删除

scrapy

数据挖掘

存储

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

scrapy

数据挖掘

存储

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

1962

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

1012

60页PPT全解：DeepSeek系列论文技术要点整理

1875

scrapy结合selenium进行动态加载页面内容爬取

scrapy 爬虫 https php 网络安全

使用requests进行数据获取的时候一般使用的是respond.text来获取网页源码，然后通过正则表达式提取出需要的内容。

zx钟

2019/07/19

2.4K0

Python最火爬虫框架Scrapy入门与实践，豆瓣电影 Top 250 数据采集

scrapy xslt & xpath python 爬虫 php

Python爬虫框架Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

二爷

2020/07/22

2.4K0

Python最火爬虫框架Scrapy入门与实践，豆瓣电影 Top 250 数据采集

从原理到实战，一份详实的 Scrapy 爬虫教程

python scrapy xslt & xpath 爬虫

本文将从原理到实战带领大家入门另一个强大的框架 Scrapy。如果对Scrapy感兴趣的话，不妨跟随本文动手做一遍！

CDA数据分析师

2021/08/05

11.2K0

011：运用Scrapy爬取腾讯招聘信息

爬虫 python ide scrapy

在tecent_recruit文件夹下找到spiders文件夹，在此处打开cmd窗口输入命令：scrapy genspider catch_positon tencent.com 创建名为“catch_positon"的爬虫文件

李玺

2021/11/22

6860

python爬虫–scrapy（再探）

python scrapy php java 爬虫

— 图片：xpath解析出图片src的属性值。单独的对图片地址发起请求获取图片二进制类型的数据。

全栈程序员站长

2021/04/21

6600

python爬虫 scrapy爬虫框架的基本使用

python scrapy

在编写爬虫的时候，如果我们使用 requests、aiohttp 等库，需要从头至尾把爬虫完整地实现一遍，比如说异常处理、爬取调度等，如果写的多了，的确会比较麻烦。利用现有的爬虫框架，可以提高编写爬虫的效率，而说到 Python 的爬虫框架，Scrapy 当之无愧是最流行最强大的爬虫框架了。

叶庭云

2020/09/17

1.6K0

scrapy框架

爬虫 php python 云数据库 Redis®bash

scrapy genspider 应用名称爬取网页的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）

全栈程序员站长

2022/09/07

1.7K0

Python之scrapy框架

python bash 网站 scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

鱼找水需要时间

2023/02/16

5170

Scrapy框架新手入门教程

python php 爬虫 http scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

小锋学长生活大爆炸

2020/08/13

7100

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

python scrapy

文章目录一、分析网页目标URL：https://movie.douban.com/top250?start=0&filter= 每一页有25条电影信息，总共10页。检查网页可以发现，每条电影的详细

叶庭云

2020/09/17

5.1K0

爬虫之scrapy框架（一）

scrapy http 爬虫 ide

Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

2020/03/19

8520

python爬虫入门：scrapy爬取书籍的一些信息

其他

爬取这个网上的书籍http://www.allitebooks.com/security/ 然后价格等信息在亚马逊上爬取：https://www.amazon.com/s/ref=nb_sb_noss

禹都一只猫olei

2018/05/25

7860

Scrapy 爬虫实例（一）

scrapy

在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

HLee

2021/06/10

6050

python3 网络爬虫实例1

python html scrapy https 网络安全

pip install scrapy pip install pyOpenSSL pip install cryptography pip install CFFI pip install lxml pip install cssselect pip install Twisted

用户5760343

2019/12/13

9030

【0基础学爬虫】爬虫基础之scrapy的使用

逆向工程 python爬虫

大数据时代，各行各业对数据采集的需求日益增多，网络爬虫的运用也更为广泛，越来越多的人开始学习网络爬虫这项技术，K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章，为实现从易到难全方位覆盖，特设【0基础学爬虫】专栏，帮助小白快速入门爬虫，本期为自动化工具 Selenium 的使用。

K哥爬虫

2024/07/01

1810

如何用 Python + Scrapy 爬取视频？

爬虫 scrapy http php html

今天将带大家简单了解Scrapy爬虫框架，并用一个真实案例来演示代码的编写和爬取过程。

快学Python

2021/08/09

2K0

Python爬虫之scrapy构造并发送请求

html php 爬虫 scrapy python

在爬虫文件的parse方法中，提取详情页增加之前callback指定的parse_detail函数：

海仔

2020/09/28

1.5K0

爬虫之scrapy框架

python scrapy 爬虫存储 tcp/ip

　　何为框架，就相当于一个封装了很多功能的结构体，它帮我们把主要的结构给搭建好了，我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据，提取数据的框架，我们熟知爬虫总共有四大部分，请求、响应、解析、存储，scrapy框架都已经搭建好了。scrapy是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架，scrapy使用了一种非阻塞的代码实现并发的，结构如下：

py3study

2020/01/17

1.3K0

Python爬虫之scrapy框架学习

python bash 存储文件存储 scrapy

scrapy安装步骤 pip install wheel 下载twisted : 地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted (选择对应的版本) 安装twisted : pip install aiohttp-3.8.1-cp38-cp38-win_amd64.whl pip install pywin32 pip install scrapy 测试终端输入: scrapy 创建工程终端输入: scrapy startproject fi

shaoshaossm

2022/12/26

7130

(原创)Scrapy爬取美女图片

scrapy 爬虫 python

有半个月没有更新了，最近确实有点忙。先是华为的比赛，接着实验室又有项目，然后又学习了一些新的知识，所以没有更新文章。为了表达我的歉意，我给大家来一波福利。。。今天咱们说的是爬虫框架

七夜安全博客

2018/06/21

1.6K0