Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >🧭 Web Scraper 学习导航

🧭 Web Scraper 学习导航

作者头像
卤代烃
发布于 2022-02-23 06:37:20
发布于 2022-02-23 06:37:20
2.1K0
举报
文章被收录于专栏:超级码力超级码力

日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据。

当我们着手准备收集数据时,面对低效的复制黏贴工作,一般都会萌生一个想法:我要是会爬虫就好了,分分钟就把数据爬取下来了。可是当我们搜索相关教程时,往往会被高昂的学习成本所劝退。拿现在最通用的 python 爬虫来说,对于小白来说往往要跨过下面几座大山:

  • 学习一门编程语言:python
  • 学习网页的基础构成——HTML 标签和 CSS 选择器,有时候还要了解一些 JavaScript
  • 学习网络通信的基础协议——HTTP 协议
  • 学习 python 中常见的爬虫框架解析库
  • ......

上面的知识点,没有几个月是掌握不完的。而且对于非强需求的人来说,这么多的知识点,你还会时时刻刻和遗忘做斗争

那么有没有不学 python 也能爬取数据的利器呢?结合文章标题,我想你已经知道我要安利什么了。今天我要推荐的就是Web Scraper,一个轻量的数据爬虫利器。

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求

插件安装

Web Scraper 作为一个 Chrome 插件,网络条件良好的用户可以直接上chrome 网上应用店安装,不太好的用户可以下载插件安装包手动安装,具体的安装流程可以看我的教程:Web Scraper 的下载与安装

常见网页的类型

结合我的数据爬取经验和读者反馈,我一般把网页分为三大类型:单页分页列表筛选表单

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里第一篇爬虫实战就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

比较遗憾的是,Web Scraper 对复杂筛选页的支持不是很好,如果筛选条件可以反映在 URL 链接上就可以爬取相关数据,如果不能就无法爬取筛选后的数据。

常见的分页类型

分页列表是很常见的网页类型。根据加载新数据时的交互,我把分页列表分为 3 大类型:滚动加载分页器加载和点击下一页加载

1.滚动加载

我们在刷朋友圈刷微博的时候,总会强调一个『』字,因为看动态的时候,当把内容拉到屏幕末尾的时候,APP 就会自动加载下一页的数据,从体验上来看,数据会源源不断的加载出来,永远没有尽头。

Web Scraper 有一个选择器类型叫 Element scroll down,意如其名,就是滚动到底部加载的意思。利用这个选择器,就可以抓取滚动加载类型的网页,具体的操作可以见教程:Web Scraper 抓取「滚动加载」类型网页

2.分页器加载

分页器加载数据的网页在 PC 网页上非常常见,点击相关页码就能跳转到对应网页。

Web Scraper 也可以爬取这种类型的网页。相关的教程可见:Web Scraper 控制链接分页Web Scraper 抓取分页器类型网页Web Scraper 利用 Link 选择器翻页

3.点击下一页加载

点击下一页按钮加载数据其实可以算分页器加载的一种,相当于把分页器中的「下一页」按钮单独拿出来自成一派。

这种网页需要我们手动点击加载按钮来加载新的数据。Web Scraper 可以 Element click 选择器抓取这种分页网页,相关教程可见:Web Scraper 点击「下一页」按钮翻页

进阶使用

学习了上面列出的几篇教程,Web Scraper 这个插件 60% 的功能基本上就掌握了。下面是一些进阶内容,掌握了可以更高效的抓取数据。

1.列表页 + 详情页

互联网资讯最常见的架构就是「列表页 + 详情页」的组合结构了。

列表页是内容的标题和摘要,详情页是详细说明。有时候我们需要同时抓取列表页和详情页的数据,Web Scraper 也支持这种常见的需求。我们可以利用 Web Scraper 的 Link 选择器来抓取这种组合网页,具体操作可以看教程:Web Scraper 抓取二级网页

2.HTML 标签与 CSS 选择器

我在前面说了 Web Scraper 屏蔽了一些网页知识,比如说 HTML 和 CSS 的一些内容,只需要简单的鼠标点选就可以搭建一个自定义爬虫。

但是如果我们花半个小时了解一些基础的 HTML 和 CSS 知识,其实可以更好的使用 Web Scraper。所以我专门写了一篇介绍 CSS 选择器的文章,十分钟读下来可以上手自定义 CSS 选择器。

3.正则表达式的使用

Web Scraper 其实是一款专注于文本爬取的爬虫工具。

如果你日常工作中经常和文本打交道,或者使用过一些效率工具,那你一定听说过正则表达式

没错,Web Scraper 也支持基础的正则表达式,用来筛选和过滤爬取的文本,我也写了一篇文章介绍正则表达式,如果爬取过程中使用它,可以节省不少数据清洗的时间。

4.Sitemap 的导入和导出

SItemap 是个什么东西?其实它就是我们操作 Web Scraper 后生成的配置文件,相当于 python 爬虫的源代码。

我们可以通过分享 Sitemap 来分享我们制作的爬虫,相关操作我也写了教程:Web Scraper 导入导出爬虫配置

5.换一个存储数据库

Web Scraper 导出数据时有一个缺点,默认使用浏览器的 localStorage 存储数据,导致存储的数据是乱序的。这种情况可以通过 Excel 等软件进行排序,也可以通过换一个数据存储库的方式来解决。

Web Scraper 支持 CouchDB 数据库,配置成功后导出的数据就是正序了。相关的配置过程可以看我写的教程:Web Scraper 使用 CouchDB

Web Scraper 的优点

  • 轻量:非常的轻量。上手只需要一个 Chrome 浏览器和一个 Web Scraper 插件。对于一些限制安装第三方软件的公司电脑,可以很轻易的突破这层限制
  • 提效:Web Scraper 支持绝大多数的网页的爬取,可以无侵入的加入你的日常工作流中
  • :抓取速度取决于你的网速与浏览器加载速度,其他的数据采集软件可能有限速现象(充钱就能不限速)

Web Scraper 的缺点

  • 只支持文本数据抓取:图片短视频等多媒体数据无法批量抓取
  • 不支持范围抓取:例如一个网页有 1000 条数据,默认是全量抓取的,无法配置抓取范围。想停止抓取,只能断网模拟数据加载完毕的情况
  • 不支持复杂网页抓取:对于那些加了复杂交互、酷炫的特效和反人类的反爬虫网页,Web Scraper 无能为力(其实这种网页写 python 爬虫也挺头疼)
  • 导出数据乱序:想让数据正序就得用 Excel 或者用 CouchDB,相对复杂了一些

总结

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。

相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 卤蛋实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
零代码爬虫神器 -- Web Scraper 的使用!
我经常会遇到一些简单的需求,需要爬取某网站上的一些数据,但这些页面的结构非常的简单,并且数据量比较小,自己写代码固然可以实现,但杀鸡焉用牛刀?
小F
2021/12/01
2.1K0
零代码爬虫神器 -- Web Scraper 的使用!
简易数据分析(七):Web Scraper 抓取表格、分页器翻页数据
经典表格就这些知识点,没了。下面我们写个简单的表格 Web Scraper 爬虫。
一只图雀
2020/10/26
4.7K0
简易数据分析(七):Web Scraper 抓取表格、分页器翻页数据
简易数据分析 13 | Web Scraper 抓取二级页面(详情页)
不知不觉,web scraper 系列教程我已经写了 10 篇了,这 10 篇内容,基本上覆盖了 Web Scraper 大部分功能。今天的内容算这个系列的最后一篇文章了,下一章节我会开一个新坑,说说如何利用 Excel 对收集到的数据做一些格式化的处理和分析。
卤代烃
2020/07/09
4.5K0
🦀️ 后羿采集器——最良心的爬虫软件
2020 年如果让我推荐一款大众向的数据采集软件,那一定是后裔采集器[1]了。和我之前推荐的 web scraper 相比,如果说 web scraper 是小而精的瑞士军刀,那后裔采集器就是大而全的重型武器,基本上可以解决所有的数据爬取问题。
卤代烃
2022/02/23
6K0
🦀️ 后羿采集器——最良心的爬虫软件
简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页
前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据、点击“更多按钮“加载数据和下拉自动加载数据。今天我们说说一种更常见的翻页类型——分页器。
卤代烃
2020/07/09
3.7K0
Web Scraper 翻页——利用 Link 选择器翻页 | 简易数据分析 14
这次的更新是受一位读者启发的,他当时想用 Web scraper 爬取一个分页器分页的网页,却发现我之前介绍的分页器翻页方法不管用。我研究了一下才发现我漏讲了一种很常见的翻页场景。
卤代烃
2020/07/09
3.4K0
10 分钟上手Web Scraper,从此爬虫不求人
但是不写爬虫,就不能方便的获取数据,自己写代码又要花费很多时间,少则一两个小时,多则半天的时间,这就让人很矛盾。
somenzz
2021/02/08
14.4K0
简易数据分析 05 | Web Scraper 翻页——控制链接批量抓取数据
上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。
卤代烃
2020/07/09
1.8K0
web scraper 抓取分页数据和二级页面内容
如果你已经用过这个工具,想必已经用它抓取过一些数据了,是不是很好用呢。也有一些同学在看完文章后,发现有一些需求是文章中没有说到的,比如分页抓取、二级页面的抓取、以及有些页面元素选择总是不能按照预期的进行等等问题。
古时的风筝
2018/07/31
5.9K1
web scraper 抓取分页数据和二级页面内容
Web Scraper,强大的浏览器爬虫插件!
Web Scraper是一款功能丰富的浏览器扩展爬虫工具,有着直观的图形界面,无需编写代码即可自定义数据抓取规则,高效地从网页中提取结构化数据,而且它支持灵活的数据导出选项,广泛应用于电商监控、内容聚合、市场调研等多元化数据收集与分析场景。
派大星的数据屋
2024/09/03
1.2K0
Web Scraper,强大的浏览器爬虫插件!
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
Web Scraper 是一个浏览器扩展,用于从页面中提取数据(网页爬虫)。对于简单或偶然的需求非常有用,例如正在写代码缺少一些示例数据,使用此插件可以很快从类似的网站提取内容作为模拟数据。从 Chrome 的插件市场安装后,页面 F12 打开开发者工具会多出一个名 Web Scraper 的面板,接下来以此作为开始。
仲君Johnny
2024/01/24
9.5K0
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
简易数据分析(三):Web Scraper 批量抓取豆瓣数据与导入已有爬虫
上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。
一只图雀
2020/09/30
2.5K0
简易数据分析(三):Web Scraper 批量抓取豆瓣数据与导入已有爬虫
简易数据分析(五):Web Scraper 翻页、自动控制抓取数量 & 父子选择器
我们在Web Scraper 翻页——控制链接批量抓取数据一文中,介绍了控制网页链接批量抓取数据的办法。
一只图雀
2020/09/30
3.4K0
简易数据分析(五):Web Scraper 翻页、自动控制抓取数量 & 父子选择器
简易数据分析 04 | Web Scraper 初尝:抓取豆瓣高分电影
今天我们开始数据抓取的第一课,完成我们的第一个爬虫。因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:)
卤代烃
2020/07/09
1.2K0
简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页
我们在Web Scraper 翻页——控制链接批量抓取数据一文中,介绍了控制网页链接批量抓取数据的办法。
卤代烃
2020/07/09
3.4K0
web scraper 抓取网页数据的几个常见问题
相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上
古时的风筝
2019/05/25
3.8K0
一篇文章带你入门爬虫(附视频教学)
这是最基本、也是最简单的爬虫了。即所有想要的信息都在一个页面,没有做分页处理。我们利用web scraper直接爬就行了。
逍遥子大表哥
2025/07/28
3000
一篇文章带你入门爬虫(附视频教学)
不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜
如果要抓取数据,一般使用Python是很方便的,不过如果你还不会推荐使用Chrome扩展 web scraper,下面就分别用Python和 web scraper 抓取豆瓣电影top 250 和b站排行榜的数据。
苏生不惑
2020/11/10
1.7K0
不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜
简易数据分析 06 | 如何导入别人已经写好的 Web Scraper 爬虫
上两期我们学习了如何通过 Web Scraper 批量抓取豆瓣电影 TOP250 的数据,内容都太干了,今天我们说些轻松的,讲讲 Web Scraper 如何导出导入 Sitemap 文件。
卤代烃
2020/07/09
9860
不用代码,10分钟会采集微博、微信、知乎、58同城数据和信息
 学会信息和数据快速采集都是非常必要的,因为这能大大提高工作效率。在学会python和火车头之前,web scraper是我最常用的采集工具了,设置简单,非常高效,采集咪蒙文章标题仅需2分钟,采集58同城5000条租房信息也就5分钟而已。 Web scraper是google强大插件库中非常强大的一款数据采集插件,有强大的反爬虫能力,只需要在插件上简单地设置好,可以快速抓取知乎、简书、豆瓣、大众、58等大型、中型、小型的90%以上的网站,包括文字、图片、表格等内容,最后快速导出csv格式文件。Google官
沉默的白面书生
2018/05/07
2.6K0
不用代码,10分钟会采集微博、微信、知乎、58同城数据和信息
推荐阅读
零代码爬虫神器 -- Web Scraper 的使用!
2.1K0
简易数据分析(七):Web Scraper 抓取表格、分页器翻页数据
4.7K0
简易数据分析 13 | Web Scraper 抓取二级页面(详情页)
4.5K0
🦀️ 后羿采集器——最良心的爬虫软件
6K0
简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页
3.7K0
Web Scraper 翻页——利用 Link 选择器翻页 | 简易数据分析 14
3.4K0
10 分钟上手Web Scraper,从此爬虫不求人
14.4K0
简易数据分析 05 | Web Scraper 翻页——控制链接批量抓取数据
1.8K0
web scraper 抓取分页数据和二级页面内容
5.9K1
Web Scraper,强大的浏览器爬虫插件!
1.2K0
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
9.5K0
简易数据分析(三):Web Scraper 批量抓取豆瓣数据与导入已有爬虫
2.5K0
简易数据分析(五):Web Scraper 翻页、自动控制抓取数量 & 父子选择器
3.4K0
简易数据分析 04 | Web Scraper 初尝:抓取豆瓣高分电影
1.2K0
简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页
3.4K0
web scraper 抓取网页数据的几个常见问题
3.8K0
一篇文章带你入门爬虫(附视频教学)
3000
不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜
1.7K0
简易数据分析 06 | 如何导入别人已经写好的 Web Scraper 爬虫
9860
不用代码,10分钟会采集微博、微信、知乎、58同城数据和信息
2.6K0
相关推荐
零代码爬虫神器 -- Web Scraper 的使用!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
首页
学习
活动
专区
圈层
工具
MCP广场
首页
学习
活动
专区
圈层
工具
MCP广场