Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >scrapy数据保存为excel

scrapy数据保存为excel

作者头像
py3study
发布于 2021-04-25 02:54:32
发布于 2021-04-25 02:54:32
1.4K00
代码可运行
举报
文章被收录于专栏:python3python3
运行总次数:0
代码可运行

一、概述

scrapy爬取的数据,需要保存到excel中,根据中文标题,将对应的数据写入。

二、实现方法

安装模块

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip3 install openpyxl

修改pipelines.py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
from openpyxl import Workbook


class ExcelPipeline(object):
    def __init__(self):
        self.wb = Workbook()
        self.ws = self.wb.active
        self.ws.append(['姓名', '年龄', '地址')
        self.file_name = "test.xlsx"

    def process_item(self, item, spider):
        line = [item['name'], item['age'], item['address']]
        self.ws.append(line)
        self.wb.save(self.file_name)
        return item

    def close_spider(self, spider):
        # 关闭
        self.wb.close()

本文参考链接:

https://blog.csdn.net/qq_42336560/article/details/80951401

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/04/23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
爬虫课堂(二十)|编写Spider之使用Item Pipeline处理数据
在前面的章节中,讲解了提取数据和使用Item封装数据,接下来讲解如何处理爬取到的数据。 在Scrapy框架中,Item Pipeline是处理数据的组件,如下图20-1所示,当Item在Spider
黄小怪
2018/05/21
6510
Scrapy框架: pipelines.py设置
保存数据到json文件 # -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy.exporters import JsonItemExporter cla
hankleo
2020/09/17
2780
二、Item Pipeline和Spider-----基于scrapy取校花网的信息 编写item pipeline
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用: 验证爬取的数据(检查item包含某些字段,比如说name字段) 查重(并丢弃) 将爬取结果保存到文件或者数据库中 编写item pipeline 编写item pipeline很简单,item
酱紫安
2018/04/16
1.3K0
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
		编写item pipeline
OnlineJudge难度与正确度的相关
  本着做题的心态,上了东莞理工学院的 oj 网;在选择难度的时候发现有些题目通过率和难度可能存在着某些关系,于是决定爬下这些数据简单查看一下是否存在关系。
py3study
2020/01/17
5270
Scrapy爬取笑话网,Python3.5+Django2.0构建应用
E:\django\myProject001>pip install scrapy
菲宇
2019/06/13
8710
Scrapy爬取笑话网,Python3.5+Django2.0构建应用
python scrapy实战糗事百科保
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scrapy.http.response.html import HtmlResponse from scrapy.selector.unified import SelectorList class QsbkSpiderSpider(scrapy.Spider): name = 'qsbk_spider'
py3study
2020/01/20
4250
「Python爬虫系列讲解」十三、用 Scrapy 技术爬取网络数据
前文回顾: 「Python爬虫系列讲解」一、网络数据爬取概述 「Python爬虫系列讲解」二、Python知识初学 「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试 「Python爬虫系列讲解」四、BeautifulSoup 技术 「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息 「Python爬虫系列讲解」六、Python 数据库知识 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取 「Python爬虫系列讲解」八、Selenium 技术 「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识 「Python爬虫系列讲解」十、基于数据库存储的 Selenium 博客爬虫 「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
荣仔_最靓的仔
2021/02/02
3.3K0
「Python爬虫系列讲解」十三、用 Scrapy 技术爬取网络数据
Scrapy-笔记一 入门项目 爬虫抓取w3c网站
学习自:http://blog.csdn.net/u012150179/article/details/32911511
十四君
2019/11/27
7120
开启Scrapy爬虫之路
七夜大佬的《python爬虫开发与项目实战》,买了好多年了,学习了好多东西,基本上爬虫都是在这里面学的,后期的scrapy框架爬虫一直不得门而入,前段时间补了下面向对象的知识,今天突然顿悟了!写个笔记记录下学习过程
诡途
2020/10/16
7610
开启Scrapy爬虫之路
Scrapy框架系列--数据不保存,就是耍流氓(3)
OK,通过签名两篇文章《爬虫利器初体验(1)》《听说你的爬虫又被封了?(2)》,我们初体验也过了,爬虫代码健壮性也升级为 PLUS 了。都分析到这个地步了,是不是感觉还少了点什么?对,我们还没保存数据呀?不保存,这不是瞎忙活吗?
1480
2019/08/05
9550
Scrapy框架系列--数据不保存,就是耍流氓(3)
python爬虫–scrapy(初识)
因为我是同时安装anaconda和python3.7,所以在使用pip的时候总是会显示anaconda中已经安装(众所周知),就很烦 。一气之下,挂着VPN并且在CMD中使用conda install scrapy,然后安装好。 PS:也有可能直接使用conda install scrapy就可以了(我没试)
全栈程序员站长
2021/04/19
4250
python爬虫–scrapy(初识)
Scrapy+Selenium爬取动态渲染网站
在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium创建浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载的数据值
py3study
2020/11/05
1.7K0
Scrapy+Selenium爬取动态渲染网站
Python:Item Pipeline
当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。
Lansonli
2021/10/09
4860
数据咖学堂:大熊学python3爬虫–scrapy浅探(二)
尽管介绍scrapy的博文什么的都比较多,然而基本千篇一律,确实不好找到自己想要的,摸索了一天摸出了些头绪,下面我会把遇到的问题贴出来,并简单摸索下常见错误。 scrapy 安装完之后,有个bug大家
小莹莹
2018/04/25
6910
数据咖学堂:大熊学python3爬虫–scrapy浅探(二)
从原理到实战,一份详实的 Scrapy 爬虫教程
本文将从原理到实战带领大家入门另一个强大的框架 Scrapy。如果对Scrapy感兴趣的话,不妨跟随本文动手做一遍!
CDA数据分析师
2021/08/05
11.2K0
从原理到实战,一份详实的 Scrapy 爬虫教程
利用Scrapy框架爬取LOL皮肤站高清壁纸
成品打包:点击进入 代码: 爬虫文件 # -*- coding: utf-8 -*- import scrapy from practice.items import PracticeItem from urllib import parse class LolskinSpider(scrapy.Spider): name = 'lolskin' allowed_domains = ['lolskin.cn'] start_urls = ['https://lolsk
SingYi
2022/07/14
4740
利用Scrapy框架爬取LOL皮肤站高清壁纸
Python网络爬虫(六)- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫
Scrapy Engine(Scrapy核心) 负责数据流在各个组件之间的流。Spiders(爬虫)发出Requests请求,经由Scrapy Engine(Scrapy核心) 交给Scheduler(调度器),Downloader(下载器)Scheduler(调度器) 获得Requests请求,然后根据Requests请求,从网络下载数据。Downloader(下载器)的Responses响应再传递给Spiders进行分析。根据需求提取出Items,交给Item Pipeline进行下载。Spiders和Item Pipeline是需要用户根据响应的需求进行编写的。除此之外,还有两个中间件,Downloaders Mddlewares和Spider Middlewares,这两个中间件为用户提供方面,通过插入自定义代码扩展Scrapy的功能,例如去重等。
Python攻城狮
2018/08/23
1.8K0
Python网络爬虫(六)- Scrapy框架1.Scrapy2.安装和配置3.安装过程常见错误4.代码操作 - 创建一个Scrapy项目5.Scrapy框架进阶 - 深度爬虫
scrapy爬虫完整的代码实例[通俗易懂]
进入tutorial目录,在spider下面新建quotes_spider.py
全栈程序员站长
2022/09/13
6640
Python的Scrapy框架使用中的诸多问题
extract()0在没有值时,会出问题;extract_first()则可以很好地解决这个问题,没有值则赋值None(代码如上和下方)
用户7983913
2020/11/16
1.5K0
scrapy爬取糗事百科段子
今天是复习前几天搞得scrapy爬虫框架学习 好长时间没有在搞了,属实是有一些东西给忘了 今天特地给复习一下,这是房价前所听课所作的笔记
用户8447427
2022/08/18
3920
scrapy爬取糗事百科段子
推荐阅读
相关推荐
爬虫课堂(二十)|编写Spider之使用Item Pipeline处理数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验