在之前从网页解析出了我们想要的数据详情请看Scrapy 框架实践爬虫--实践篇, 趁热打铁 , 接下来就是将数据储存在本地数据库中。1.将数据转化为对象进行储存前面提到过 , 在 Scrapy 中通过 pipeline 进行储存。当然现在还没有创建存储的类 , 所以在操作 pipeline 之前 , 先创建一个 item。
接下来就是操作 pipeline 来存储数据将数据存入本地的数据库 , 我选择的是 mysql 数据库 , 要用 python 操作 mysql 数据库 , 还需要下载 python 库 pymsql。
2.将数据存储到数据库中在将数据存储到数据库之前 , 先创建一个数据表。
接下来 , 需要一个操作数据库的类 , 之后进行数据库操作的时候 , 直接通过这个类就可以了。在这个类中 , 需要有一个 insert 方法和判断数据是否存在的方法。
接下来只需要在 pipeline 中调用数据库操作即可
对了 , 还需要在 settings 文件中指明使用的 pipelines:
大功告成~代码地址:https://github.com/zengln/DSpider
领取专属 10元无门槛券
私享最新 技术干货