Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一日一技:在Scrapy中,Cookies不能放在Headers里面

一日一技:在Scrapy中,Cookies不能放在Headers里面

作者头像
青南
发布于 2019-01-09 08:41:37
发布于 2019-01-09 08:41:37
1.6K00
代码可运行
举报
文章被收录于专栏:未闻Code未闻Code
运行总次数:0
代码可运行

当我们使用requests的时候,一般可以直接把Cookies放在Headers里面,随着请求一并提交,例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
 'Accept-Encoding': 'gzip, deflate',
 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
 'Cache-Control': 'max-age=0',
 'Connection': 'keep-alive',
 'Cookie': '__cfduid=d50cf692a2f654986d51b98e6c1bad6c41535939301; session=.eJwlzj0OwjAMQOG7eO6Q2Emc9DKV6x-oEB1amBB3pxLS27_3gSUOP-8wv463T7BsBjMEiaIRMZe-MgfXKozmShqWXZVMOqdW-jDElkbm2r2IKqt0WYkwczKLNjyKmqUW2Nekgv3KMg2mWp1TRcm54ShNROvl5FARmOB9-vGfeWz7bZenw_cHGzsyUA.Dw5FeA.xD0ofpGXJUvDLYeCrMn08E24HKM',
 'DNT': '1',
 'Host': 'exercise.kingname.info',
 'Upgrade-Insecure-Requests': '1',
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

但是,如果使用Scrapy的时候需要Cookies,就不能把Cookies放在Headers里面。在Scrapy发起请求的时候,有一个单独的参数来设置Cookies:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
yield scrapy.Request(url,
                     callback=self.xxx,
                     headers=headers,
                     cookies={'__cfduid': 'd50cf692a2f654986d51b98e6c1bad6c41535939301',
                              'session': '.eJwlzj0OwjAMQOG7eO6Q2Emc9DKV6x-oEB1amBB3pxLS27_3gSUOP-8wv463T7BsBjMEiaIRMZe-MgfXKozmShqWXZVMOqdW-jDElkbm2r2IKqt0WYkwczKLNjyKmqUW2Nekgv3KMg2mWp1TRcm54ShNROvl5FARmOB9-vGfeWz7bZenw_cHGzsyUA.Dw5FeA.xD0ofpGXJUvDLYeCrMn08E24HKM'})

并且, cookies参数的值为一个字典,需要把原来Chrome中的字符串Cookies,先按分号分为不同的段,每一段再根据等号拆分为key和value。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一日一技:Requests被网站识别怎么办?
现在有很多网站,已经能够通过JA3或者其他指纹信息,来识别你的请求是不是Requests发起的。这种情况下,你无论怎么改Headers还是代理,都没有任何意义。
青南
2023/10/22
1.1K1
一日一技:Requests被网站识别怎么办?
scrapy 爬取校花网,并作数据持久化处理
-:process_item方法中return item 的操作将item 传递给下一个即将被执行的管道类
百里丶落云
2023/11/14
4783
Scrapy框架中crawlSpider的使用——爬取内容写进MySQL和拉勾网案例
Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。该案例采用的是CrawlSpider类实现爬虫进行全站抓取。
菲宇
2019/06/13
1.3K0
Scrapy之FilesPipeline和ImagesPipline文件与图片下载
Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方法和结构(称之为media pipeline)。我们可以使用FilesPipeline和Images Pipeline来保存文件和图片,他们有以下的一些特点:
菲宇
2019/06/13
3.2K0
Scrapy之FilesPipeline和ImagesPipline文件与图片下载
Python爬虫(全)
里面的parse方法,这个方法有两个作用 1.负责解析start_url下载的Response 对象,根据item提取数据(解析item数据的前提是parse里全部requests请求都被加入了爬取队列) 2.如果有新的url则加入爬取队列,负责进一步处理,URL的Request 对象 这两点简单来说就是编写爬虫的主要部分
yuanshuai
2022/08/22
13.3K0
Python爬虫(全)
使用javascript实现对于chineseocr的API调用「建议收藏」
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/125721.html原文链接:https://javaforall.cn
全栈程序员站长
2022/07/22
8320
使用javascript实现对于chineseocr的API调用「建议收藏」
微信小程序中-[渲染层网络层错误] pages/card/card.wxss 中的本地资源图片无法通过 WXSS 获取-解决办法
2. base64 将图片转换为base64,转换图片网址,转换后将得到的字符放在background-image属性值原位置处
全栈程序员站长
2022/09/12
1.2K0
微信小程序中-[渲染层网络层错误] pages/card/card.wxss 中的本地资源图片无法通过 WXSS 获取-解决办法
百度为何开源paddleocr_智能边缘计算
Paddle Serving 作为飞桨(PaddlePaddle)开源的服务化部署框架,提供了 C++ Serving 和 Python Pipeline 两套框架,旨在帮助深度学习开发者和企业提供高性能、灵活易用的工业级在线推理服务,助力人工智能落地应用。
全栈程序员站长
2022/11/04
3950
百度为何开源paddleocr_智能边缘计算
伪元素的作用_获取iframe中的元素
获取网页源代码也获取不了这些动态渲染的数据 所以用简单的,但是有点麻烦的方法 使用selenium执行js,或者直接在浏览器里面执行js
全栈程序员站长
2022/11/04
7.3K0
伪元素的作用_获取iframe中的元素
基于Auto.js的萌猫跳辅助
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/134820.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/06
9290
》》初识移动端–rem
转载于:https://www.cnblogs.com/1007573044qqcom/p/7988336.html
全栈程序员站长
2022/09/15
8970
vim的配置文件_vim编辑文件命令
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/11/10
1.1K0
Data URI scheme「建议收藏」
data URI scheme 允许我们使用内联(inline-code)的方式在网页中包含数据,目的是将一些小的数据,直接嵌入到网页中,从而不用再从外部文件载入。常用于将图片嵌入网页。
全栈程序员站长
2022/11/02
5670
hexo-theme-matery_文字博客wordpress主题
在主题文件的theme/matery /source/css/matery.css 文件中,搜索 .bg-color 来修改背景颜色:
全栈程序员站长
2022/08/18
13.4K0
用java实现图片切换_电视背景集成墙面
下载地址:Download OpenCV from SourceForge.net
全栈程序员站长
2022/09/30
5770
用java实现图片切换_电视背景集成墙面
从excel文件xlsx中特定单元格中提取图片「建议收藏」
第一种网上通用的用xlsx改zip压缩包,能批量提取出图片。但是无法知道图片在单元格中的顺序信息。
全栈程序员站长
2022/09/14
6.6K0
base编码器_base100编码
Base64编码 是一种基于 64 个可打印字符来表示二进制数据的方法。目前 Base64 已经成为网络上常见的传输 8 位二进制字节代码的编码方式之一。
全栈程序员站长
2022/11/10
4590
base编码器_base100编码
base64编码图片 生成图片,返回地址[通俗易懂]
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/158546.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/14
2K0
闭包及作用域销毁练习
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/11/07
4390
如何破解滑动验证码?
本文通过自动化查询域名或公司的备案信息,来演示其中图片滑动验证码的破解方式,以此来思考验证码的安全性问题,思考如何设计出安全性更高的验证码。
未读代码
2023/09/01
1.4K0
如何破解滑动验证码?
相关推荐
一日一技:Requests被网站识别怎么办?
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验