首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >简易数据分析 04 | Web Scraper 初尝:抓取豆瓣高分电影

简易数据分析 04 | Web Scraper 初尝:抓取豆瓣高分电影

作者头像
卤代烃
发布于 2020-07-09 07:35:25
发布于 2020-07-09 07:35:25
1.1K0
举报
文章被收录于专栏:超级码力超级码力

这是简易数据分析系列的第 4 篇文章

今天我们开始数据抓取的第一课,完成我们的第一个爬虫。因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:)

有人之前可能学过一些爬虫知识,总觉得这是个复杂的东西,什么 HTTP、HTML、IP 池,在这里我们都不考虑这些东西。一是小的数据量根本不需要考虑,二是这些乱七八糟的东西根本没有说到爬虫的本质。

爬虫的本质是什么?其实就是找规律

而且爬虫的找规律难度,大部分都是小学三年级的数学题水平。

我们下面拿个例子说明一下。

下图历史文章的一个截图,我们可以很清晰的看到,每一条推文可以分为三大部分:标题、图片和作者,我们只要找到这个规律,就可以批量的抓取这类数据。

好了,理论的地方我们讲完了,下面我们开始进行实操。

但凡做爬虫练手,第一个爬取的网站一般都是豆瓣电影 TOP 250,网址链接是 https://movie.douban.com/top250?start=0&filter=。第一次上手,我们爬取的内容尽量简单,所以我们只爬取第一页的电影标题。

浏览器按 F12 打开控制台,并把控制台放在网页的下方(具体操作可以看上一篇文章),然后找到 Web Scraper 这个 Tab,点进去就来到了 Web Scraper 的控制页面。

进入 Web Scraper 的控制页面后,我们按照 Create new sitemap -> Create Sitemap 的操作路径,创建一个新的爬虫,sitemap 是啥意思并不重要,你就当他是个爬虫的别名就好了。

我们在接下来出现的输入框里依次输入爬虫名和要爬取的链接。

爬虫名可能会有字符类型的限制,我们看一下规则规避就好了,最后点击 Create Sitemap 这个按钮,创建我们的第一个爬虫。

这时候会跳到一个新的操作面板,不要管别的,我们直接点击 Add new selector 这个蓝底白字的按钮。顾名思义,创建一个选择器,用来选择我们想要抓取的元素。

这时候就要开始正式的数据抓取环节了!我们先观察一下这个面板有些什么东西:

1.首先有个 Id,这个就是给我们要爬取的内容标注一下,因为我们要抓取电影的名字,简单起见就取个 name 吧; 2.电影名字很明显是一段文字,所以 Type 类型肯定是 Text,在这个爬虫工具里,默认 Type 类型就是 Text,这次的爬取工作就不需要改动了; 3.我们把多选按钮 Multiple 勾选上,因为我们要抓的是批量的数据,不勾选的话只能抓取一个; 4.最后我们点击黄色圆圈里的 Select,开始在网页上勾选电影名字;

当你把鼠标移动到网页时,会发现网页上出现了绿色的方块儿,这些方块就是网页的构成元素。

当我们点击鼠标时,绿色的方块儿就会变为红色,表示这个元素被选中了:

这时候我们就可以进行我们的抓取工作了。

我们先选择「肖生克的救赎」这个标题,然后再选择「霸王别姬」这个标题(注意:想达到多选的效果,一定要手动选取两个以上的内容)。

选完这两个标题后,向下拉动网页,你就会发现所有的电影名字都被选中了:

拉动网页检查一遍,发现所有的电影标题都被选中后,我们就可以点击 Done selecting! 这个按钮,表示选择完毕;

点击按钮后你会发现下图的红框位置会出现了一些字符,一般出现这个就表示选取成功了:

我们点击 Data preview 这个按钮,就可以预览我们的抓取效果了:

没什么问题的话,关闭 Data Preview 弹窗,翻到面板的最下面,有个 Save selector 的蓝色按钮,点击后我们会回退到上一个面板。

这时候你会发现多了一行数据,其实就是我们刚刚的操作内容被记录下来了。

在顶部的 tab 栏,有一个 Sitemap top250 的 tab,这个就是我们刚刚创建的爬虫。点击它,再点击下拉菜单里的 Scrape 按钮,开始我们的数据抓取。

这时候你会跳到另一个面板,里面有两个输入框,先别管他们是什么,全部输入 2000 就好了。

点击 Start scraping 蓝色按钮后,会跳出一个新的网页,Web Scraper 插件会在这里进行数据抓取:

一般跳出的网页自动关闭就代表着数据抓取结束了。我们点击面板上的 refresh 蓝色按钮,就可以看到我们抓取的数据了!

在这个预览面板上,第一列是 web scraper 自动添加的编号,没啥意义;第二列是抓取的链接,第三列就是我们抓取的数据了。

这个数据会存储在我们的浏览器里,我们也可以点击 Sitemap top250 下的 Export data as CSV ,这样就可以导出成 .csv 格式的数据。

.csv 这种格式可以用 Excel 打开,我们可以用 Excel 做一些数据格式化的操作。

今天我们爬取了豆瓣电影 TOP250 的第 1 页数据(也就是排名最高的 25 部电影),下一篇我们讲讲,如何抓取所有的电影名。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 卤蛋实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
博客生成静态站点工具 Top 20
本文将介绍最流行的十大博客静态站点生成工具,以 Github star 数来排名。
恋喵大鲤鱼
2023/03/10
4.3K0
开垦属于你的网络空间:简单易用的静态博客框架推荐
这篇文章介绍了几个非常出色且备受欢迎的开源项目。不论是Hugo、Jekyll、Hexo还是Eleventy,在各自领域内都表现出色。它们具有高度可定制化、快速生成静态文件以及拥有多种主题和插件等核心优势。此外,这些项目在文档资料方面也做得很好,对于初学者来说上手较为轻松。总之,如果您需要一个简单易用、功能齐全且具备扩展性的强大静态网站生成器或博客框架,请考虑选择其中之一。
小柒
2023/08/10
6620
开垦属于你的网络空间:简单易用的静态博客框架推荐
推荐10款好用的开源静态站点
在线文档:https://gohugo.io/getting-started/quick-start/
码之有理
2023/06/08
3.4K0
快速、简单、美观:构建现代化文档的工具链
这些开源项目旨在为用户提供一种简单而强大的方式来构建现代化文档或静态网站。它们拥有一些关键特性:简洁易用、支持使用Markdown编写内容、提供多种主题选择和插件扩展能力。这些工具可以帮助您方便快捷地生成高质量的文档,并且轻松进行团队协作和社区分享。如果您正在寻找一个功能强大又易于上手的工具来构建静态网站或在线文档,请考虑尝试其中之一。
小柒
2023/08/10
4920
快速、简单、美观:构建现代化文档的工具链
博客平台,自建博客,静态博客生成器搜集
本文资料搜集于网上,主要是列一个博客平台清单,包括各种自建博客框架和静态博客框架,供自己或大家参考,提供一些基本信息,剩下大家进一步探索。
六月河
2023/06/26
4890
Vue.js最佳静态站点生成器对比
在过去的几年中,Vue.js 已成为 Web 应用程序开发的流行选项。用户变多后,这个框架开始将触角伸向了静态站点生成,一个曾经由 React 统治的领域。
winty
2021/01/25
5.5K0
Vue.js最佳静态站点生成器对比
内容管理革命:无头 CMS 推荐
这些开源内容管理系统为开发者和用户提供了多样化的选择,满足了不同需求下的网站开发和管理。这些项目均以开发者为中心,拥有现代化的管理面板、丰富的功能和极速响应能力。利用各种技术支持多种平台,可与任何前端框架和移动应用程序配合使用。无论您是想搭建个人博客、新闻门户网站,还是构建商业网站和应用程序,这些开源项目都能为您提供高效、安全和灵活的解决方案。
小柒
2023/08/10
1.4K0
内容管理革命:无头 CMS 推荐
搭建博客、自己的小窝?快来看看这些开源静态网站生成器
相信很多人都想要搭建一个自己的博客或是给项目做文档网站。本文将要推荐的静态网站生成器(Static Site Generator, SSG),它做的事情就是把你的文档、内容(通常为 Markdown 文件)生成可发布成网站(html)的工具,这样你就可以专心创作,同时也有了一块自己发表自己想法的网站。然后 GitHub、Gitee 等均支持免费 Page 服务,通过简单的配置 SSG 就可以实现一条命令发布,有一个自己小窝就是这么简单和方便~
HelloGitHub
2021/05/14
1.7K0
快速构建和交付网站:无头 CMS 推荐
这些开源项目都是优秀的内容管理系统(CMS),它们提供了灵活、易用和可定制的解决方案。无论您是个人还是团队,这些项目都能满足您处理复杂内容时的需求。它们具有强大的功能和丰富的生态系统,并支持多种技术栈和平台。此外,这些项目都拥有庞大而活跃的社区,可以提供帮助和支持。无论您需要构建什么类型的应用程序或网站,这些开源项目都值得一试。
小柒
2023/09/02
7300
快速构建和交付网站:无头 CMS 推荐
使用react+docusaurus快速搭建一个博客网站
https://github.com/JACK-ZHANG-coming/my-now-blog
潜心专研的小张同学
2023/01/03
2.2K0
使用react+docusaurus快速搭建一个博客网站
ToolJet:开源低代码框架,轻松构建复杂可响应界面 | 开源日报 No.78
ToolJet 是一个开源的低代码框架,可以通过最小化工程投入来构建和部署内部工具。ToolJet 的拖放式前端构建器允许您在几分钟内创建复杂、响应式的前端界面。此外,您还可以集成各种数据源,包括 PostgreSQL、MongoDB 和 Elasticsearch 等数据库;支持 OpenAPI 规范和 OAuth2 认证的 API 接口;以及 Stripe、Slack、Google Sheets、Airtable 和 Notion 等 SaaS 工具,并且能够获取并写入数据。
小柒
2023/11/09
1.2K0
ToolJet:开源低代码框架,轻松构建复杂可响应界面 | 开源日报 No.78
今日软荐:74.4K Star 这个是高手!Hugo:构建静态网站的超级利器!
静态网站生成器近年来在开发者社区中引起了广泛关注,而其中最受欢迎的工具之一就是 Hugo。
Python兴趣圈
2024/08/29
2050
今日软荐:74.4K Star 这个是高手!Hugo:构建静态网站的超级利器!
几款开源文档生成框架工具
docsify是一个基于JavaScript 的文档生成器,它可以帮助你快速构建漂亮、响应式的文档网站。
2023/07/22
6K0
几款开源文档生成框架工具
为什么选择Docusaurus构建API文档?
在现代化软件开发中,文档对于软件成功的重要性不言而喻。然而,管理和维护文档站点往往会给开发者带来额外的负担。为了帮助开发人员快速构建易于管理和维护的文档站点,Docusaurus应运而生。本文将深入探讨为什么选择Docusaurus构建您的文档站点是一个好的选择。
coderidea
2023/05/17
8390
为什么选择Docusaurus构建API文档?
Docusaurus VS VuePress:哪一个更适合你的技术文档?
在当今的开发世界中,高质量的技术文档对于项目的成功至关重要。好的文档不仅能帮助开发者快速上手,还能大大提升项目的易用性和维护性。Docusaurus和VuePress是两个流行的文档生成工具,它们各自有着独特的优势和适用场景。本文将深入对比Docusaurus和VuePress,帮助你选择最适合你的工具。
coderidea
2024/06/27
7510
Docusaurus VS VuePress:哪一个更适合你的技术文档?
利用基于Python的Pelican打造一个自己的个人纯静态网站
    其实呢这么多年以来我一直建议每个有技术追求的开发者都要有写技术博客记笔记的良好习惯,一来可以积累知识,二来可以帮助别人,三来可以把开发中遇到的问题记录用来自省,第四可以通过交换友链来结识更多的技术领域的同仁。
用户9127725
2022/08/08
8840
利用基于Python的Pelican打造一个自己的个人纯静态网站
我的基于 JamStack 的新博客
今天心血来潮,介绍一下我的新博客站点 —— https://EWhisper.cn。
东风微鸣
2022/04/22
9790
我的基于 JamStack 的新博客
一个现代静态网站生成器Eleventy
我们展示了Eleventy如何提供一种流畅的Web开发过程,与现有技术协同工作,同时引导您采用良好的实践。
云云众生s
2024/03/28
2270
一个现代静态网站生成器Eleventy
打造跨平台应用:单一代码库,多平台运行 | 开源专题 No.84
.NET Multi-platform App UI (.NET MAUI) 是一个跨平台的框架,用于使用 C# 和 XAML 创建移动和桌面应用程序。通过使用 .NET MAUI,您可以开发能够在 Android、iOS、iPadOS、macOS 和 Windows 上运行的应用程序,并且这些应用程序共享相同的代码库。
小柒
2024/05/29
3290
打造跨平台应用:单一代码库,多平台运行 | 开源专题 No.84
VuePress与Docusaurus:构建高效文档站点
VuePress 和 Docusaurus 都是非常流行的开源静态站点生成器,特别适用于构建技术文档和知识库。它们都提供了美观的预设主题、易于使用的Markdown语法支持以及自动生成的导航和侧边栏。
天涯学馆
2024/06/15
2960
推荐阅读
相关推荐
博客生成静态站点工具 Top 20
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档