我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。

您找到你想要的搜索结果了吗？

是的

没有找到

Chrome扩展插件的开发--获取网页Cookies

【编程课堂】selenium 祖传爬虫利器

一些网页，比如微博，只有在登录状态才能进行页面的访问，或者对数据有比较复杂的验证和保护，直接通过网络请求进行登录并获取数据就会比较麻烦。这种时候，就该本篇的主角 selenium 上场了。 Selenium 是一个用于 Web 应用程序测试的工具。它的优点在于，浏览器能打开的页面，使用 selenium 就一定能获取到。但 selenium 也有其局限性，相对于脚本方式，selenium 获取内容的效率不高。本篇文章简单介绍 Selenium 下 webdriver 组件，它直接在浏览器中运行，其行为跟真

python 爬虫与反爬虫

案例：雪球网返回的就是403403 Forbidden. Your IP Address:xxx.xxx.xxx.xxx.但是当我们这样写：

Scrapy爬虫教程二浅析最烦人的反爬虫手段

浅谈iOS中的WKWebView添加cookie

分享两个有趣的爬虫代码

在调试代码的过程中，我发现百度翻译的加密参数和谷歌翻译差不多，我以前也写过一篇有关谷歌翻译的文章，感兴趣的同学可以看看： Python 实现一个自动化翻译和替换的工具

《52讲轻松搞定网络爬虫》读书笔记 - Session和Cookie

动态网页可以动态解析URL中参数的变化，关联数据库并动态呈现不同的页面内容，非常灵活多变

[HTTP趣谈]支持跨域及相关cookie设置

如今“前后端分离”的设计思想已经非常普及，所以一旦静态资源和后台应用部署在不同服务器上并采用不同域名，那么，必然会遇到“浏览器同源策略”的限制，也必然，需要前后台一起合作解决跨域问题。

某动态js加密cookie网站爬虫记录

1.问题由来：由于公司新项目需求，需要从不同平台爬取大量与项目相关的数据，大多数平台没有反爬机制，只有一个站点布置了反爬。虽然可以爬取的平台很多，可以选择爬取其他平台的数据来代替，但是考虑到该平台的可用数据量很大，值得花时间做这个爬虫，同时也是受到好奇心的驱使，于是研究了该平台的反爬机制。以下将该站点称为h网站。

python 简单爬取今日头条热点新闻(

今日头条如今在自媒体领域算是比较强大的存在，今天就带大家利用python爬去今日头条的热点新闻，理论上是可以做到无限爬取的；

【实践】Chrome浏览器客户端调试从入门到奔溃

不懂CHROME前端调试工具，遇到问题就叽叽喳喳问前端，显得很不专业。辉哥利用五一节日，补补功课，引用相关优质文章，把Chrome浏览器客户端调试的方法详细讲解一遍。

分析“QQ空间”自动转发不良信息

我想大概是因为TX的某个产品的某个页面下存在一个XSS漏洞，由于没有对请求参数做严格检查

JS Cookie存取值和域(domain)

cookie虽然是由一个网页所创建，但并不只是创建cookie的网页才能读取该cookie。

从0开始入门Chrome Ext安全（二） -- 安全的Chrome Ext

在2019年初，微软正式选择了Chromium作为默认浏览器，并放弃edge的发展。并在19年4月8日，Edge正式放出了基于Chromium开发的Edge Dev浏览器，并提供了兼容Chrome Ext的配套插件管理。再加上国内的大小国产浏览器大多都是基于Chromium开发的，Chrome的插件体系越来越影响着广大的人群。

JavaScript中的document.cookie的使用

我们已经知道，在 document 对象中有一个 cookie 属性。但是 Cookie 又是什么？“某些 Web 站点在您的硬盘上用很小的文本文件存储了一些信息，这些文件就称为 Cookie。”—— MSIE 帮助。一般来说，Cookies 是 CGI 或类似，比 HTML 高级的文件、程序等创建的，但是 javascript 也提供了对 Cookies 的很全面的访问权利。

Python爬虫入门（一）获取源码

举个例子，爬一爬知乎日报的相关数据 http://daily.zhihu.com/ 1、获取源码 import requests url = 'http://daily.zhihu.com/' res = requests.get(url).text print(res) 个人喜欢requests，直接访问，发现返回500错误 C:\Python35\python.exe F:/PyCharm/爬虫/daily.py <html><body>

500 ServerError

An inter

013

SCRAPY学习笔记八反反爬虫技术项目实战

在爬取简单的页面则很轻松的可以抓取搞定，但是如今一个b***p项目(不透露)，需要抓取的网站有比较强悍的反爬虫技术，我们也提高作战技术，汇总并逐步实现反爬虫技术。

Python爬虫之Splash详解

Splash 是一个 JavaScript 渲染服务，是一个带有 HTTP API 的轻量级浏览器，同时它对接了 Python 中的 Twisted 和 QT 库。利用它，我们同样可以实现动态渲染页面的抓取。

【JS 逆向百例】XHR 断点调试，Steam 登录逆向

用Selenium来爬取数据？真挺简单的！

于是Selenium就应运而生了，它可以算的上是自动化测试框架中的佼佼者，因为它解决了大多数用来爬取页面的模块的一个永远的痛，那就是Ajax异步加载。今天将给大家详解如何用Selenium爬取数据，并最后附上一个真实的案例。

Python爬虫利器Selenium从入门到进阶

selenium是最广泛使用的开源Web UI自动化测试套件之一，它所支持的语言包括C++、Java、Perl、PHP、Python和Ruby，在数据抓取方面也是一把利器，能够解决大部分网页的反爬措施，当然它也并非是万能的，一个比较明显的一点就在于是它速度比较慢，如果每天数据采集的量并不是很高，倒是可以使用这个框架。

无头浏览器Selenium的使用要点

无头浏览器是指可以在图形界面情况下运行的，可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务，模拟真实的浏览器操作和各种任务，例如登录、js解析、ajax动态生成、获取cookie等。

从 0 开始入门 Chrome Ext 安全（二）-- 安全的 Chrome Ext

网站设计应该避免哪些蜘蛛陷阱呢？

众所周知，不是所有的网站设计技术都是对搜索引擎友好的，像某些小电影网站、博彩娱乐站及某些直播平台站等，可能在技术上都会屏蔽搜索引擎蜘蛛爬行和抓取，而这些技术我们可以称之为蜘蛛陷阱。

网站如何适配暗色模式并实现手动、自动切换

那么，我们自己的网站如何适配暗色/亮色模式呢？首先说一下最基础的媒体查询，然后带大家了解一下我的适配方案（纯JS、CSS和HTML的前端操作）。

016

搭建青龙面板每日自动拿京豆

前言：之前网上有只要扫码一下就可以每天领上百京豆和一些红包的活动，后来呢，扫码就失效了，但是呢，这背后的技术还没有失效。这白嫖活动其实就是用脚本代替我们去参与京东的各种活动，去获取红包和京豆，而这些脚本是部署在电脑上，定时去执行的，接下来，根据网上的大佬的教程，我们也来实现一下。每天100-200京豆不等，坐收渔利，快来试试吧。

017

现在,以编程方式在 Electron 中上传文件,是非常简单的!

本文主要探讨了在 Electron 应用中如何实现上传文件到服务器的功能，同时通过本地代理服务器来获取完整的cookie。首先介绍了在 Electron 应用中如何通过 XHR 上传文件到服务器，然后介绍了如何通过 LocalStorage 将文件保存在本地。最后，本文介绍了一种使用 Electron 创建本地代理服务器，从而获取完整的cookie的方法。

Bootstrap4如何动态切换主题

bootstrap4有个网站叫做bootswatch（文末给出链接），其中已经设计了一些很美的主题：

Electron+Vue开发爬虫客户端2-自动下载网页文件

插件官网地址： https://nklayman.github.io/vue-cli-plugin-electron-builder/

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐