在上节我们可以利用解析器把我们想要的信息提取出来了,提取的过程很兴奋,因为程序按照自己的意愿在进行,当程序正常运行的时候是自己最开心的时候,即使之前遇到的各种不顺都烟消云散了,留下的只有满满的喜悦。有时候撸代码两三个小时就过去了,虽然在这两三个小时内有各种不顺也许学到的知识并不多,但是经过动手动脑调试成功后,非常有成就感,在调试中锻炼自己不骄不躁的心态,其实这东西真的要自己动手才能感受到。
接下来开始把我们提取的信息保存下来,保存成text文件或者CSV文件或者json文件。不过现在数据量比较小不用数据库去管理这些数据,当这个项目足够大,信息足够多时我们就需要配置数据库来管理我们的数据了。
还是以百度首页为例,抽出视频,贴吧等标记里面的文字和链接接如图
把这几个关键词的信息都提出来
用for循环把抽到的HTML文档中的标记遍历,读取文字和链接
然后赋值给name和href
然后可以把提取出的信息放到一个集合里面
先定义一个集合s={},然后在循环中就把刚刚的文字和链接放到集合里。
可以看见数据都放进了集合s里了。
接下来可以保存为text、CSV或者json格式了
比如保存成text格式,要用到dump函数,这个函数会把Python对象转成json对象,通过fp文件流写入文件中。
先导入json库 import json
with open('百度首页.text'.decode('utf-8'),'w') as fp: #加入decode是为了使文件名中文显示
json.dump(s,fp=fp,indent=2,ensure_assii=False) #indent是设置一行显示几个数据,ensure_assii=False使文件里的中文还是中文显示。效果如下
在目录下也有这个文件了
打开后
保存为CSV也是一样的
下载这个文件用notepad打开
下一节将会是实战内容,爬取汽车之家网站10万以内的SUV车辆信息
领取专属 10元无门槛券
私享最新 技术干货