家中想置办些家具,听朋友介绍说苏州蠡(li第二声)口的家具比较出名,因为工作在苏州,也去那边看过,简直…,走断双腿都逛不完,更何况还疲于逛街的。
也浏览过家具城的官网,本着在一定的预算范围之类挑选最合适的,作为一个程序猿,一颗不安分的心,决定自己爬虫下网站,列出个excel表格,也方便给父母辈们查看,顺带再练习下爬虫的。
同样后期实地再去购买时,也可以带上这份表格进行参考。
关于爬虫的文章还有另外两篇实战的:
excel表格:
词频统计:
爬虫分析
总共8页的数据,第一页的网址里 sell/list-66.html,第二页的sell/list-66-2.html,所以sell/list-66-1.html也就是第一页数据了,这样就更方便遍历网址来获取数据了。
同时这里使用解析数据,F12查找标题、价格、图片对应的标签。
爬取到的价格是string类型的,且有些价格并不明确的,所以这里需要对价格进行处理并排序,用到的list的方法,其中指定的方法,使用指定的方法去进行比较排序。
再对列表进行排序操作,降序排列
生成表格
这里采用的库,便于图片的插入,安装
主要用到的方法:
创建excel表格。
创建工作表。
根据行、列坐标将数据写入单元格。
设置行高。
设置列宽, 指定开始列位置, 指定结束列位置。
用于插入图片到指定的单元格
创建两个表,一个用于存放爬取的数据,一个用于存放词频。
目录下会生成 furniture.xlsx 表格
生成词频
利用jieba分词对家具名进行分词处理,用字典保存各个名词的数量,写入到excel。
词频统计,实地去购买的时候,也可以根据相应的词汇去咨询卖家~
这篇文章用到的爬虫方面的知识还是比较基础的,excel表格的生成也是库的使用,制作成表格也方便父母辈查看。当然,爬虫的数据还可以用在许多地方。
详细代码见
github地址:https://github.com/taixiang/furniture
领取专属 10元无门槛券
私享最新 技术干货