第一时间获取 Python 技术干货!
阅读文本大概需要 6 分钟。
01
抓取目标
我们要爬取的目标是「 简书网 」。
打开简书网的首页,随手点击一篇文章进入到详情页面。
我们要爬取的数据有:作者、头像、发布时间、文章 ID 以及文章内容。
02
准备工作
在编写爬虫程序之前,我都是先对页面进行简单分析,然后指定爬取思路。
由于我们爬取简书网所有的文章数据,所以考虑使用「CrawlSpider」来对整个网站进行爬取。
首先使用 Scrapy 创建一个项目和一个爬虫
爬取的数据准备存储到 Mysql 数据库中,因此需要提前建立好数据库和表。
03
爬取思路
领取专属 10元无门槛券
私享最新 技术干货