首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy爬虫系列教程(二)

今天我们新建第一个爬虫程序,爬取[伯乐在线]网站上一个网页的内容。

创建项目

[按照上一篇文章所讲的,你已经建好一个虚拟环境并安装好了]

首先,打开控制台,进入虚拟环境,输入新建一个名字为的项目。

输入查看文件下的目录结构。

用打开该文件夹,并在文件夹下新建一个文件,取名为。

在编写程序之前,我们先分析一下所要抓取的网页,登录伯乐在线网站,随便打开一篇文章:http://python.jobbole.com/89004/

我们要提取这个网页的标题,发布时间,标签,评论数,点赞数等等。

提取数据

学习如何使用提取数据的最好方法是尝试使用的选择器。

在控制台输入

会看到:

下面用响应对象使用选择元素:

提取标题,输入:

提取创建时间,输入:

提取标签,输入:

提取点赞数,输入:

提取收藏数,输入:

提取评论数,输入

这里需要说明的是,调用返回的是一个列表,而当你想返回列表中的第一个值,可以调用。

除了使用和方法之外,还可以使用正则表达式进行提取页面信息。比如,对于收藏数和评论数,我们仅仅是想提取数字而已,所以得把上面抓取到的内容进行正则匹配。

当我们提取标签的时,发现其中还有,这并不是我们希望看到的,所以我们得用正则匹配把无用的信息剔除掉。

到此为止,我们的程序代码就已经分析完成了。

主要代码:

另外,要想在上运行此程序,还需要新建一个函数

运行函数,得到运行结果。

网页上的数据被抓取下来了,你可以尝试着把这个网页的正文抓取下来。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180211G1469900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券