介绍
小小根据上次爬取经验,发现爬取的时候,信息不太完善,这次针对手机页面进行爬取。
查看手机页面
相对于pc端口的页面,手机端的页面更容易爬取。通过网络信息,可以查看到是这个请求发起的网络信息。查看相应的参数。
通过查看相应的参数,可以知道发送的json如下
Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol:
Search.CitySymbol: BeiJing
Search.ProvinceSymbol: Beijing
换城市的时候,发送该请求,可以看到使用的是拼音的简称。
发送的json如下
Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol:
Search.CitySymbol: Dongguan
Search.ProvinceSymbol: Guangdong
这样就完成了最基本的json相关的数据。
postman进行基本测试
这里使用postman实现基本测试。发送的url如下
经过测试,这个接口可以使用。
编写爬虫url爬取相关url链接
查询获取url的基本方法
这里查询获取url的基本方法,由于沃宝全是顶级的cn域名,所以这里只能采用获取所有连接+正则的方式进行匹配。匹配效果如下通过发送链接,可以看到有的地址没有。查询postman,查看相关的发送请求。
通过这样,就可以看到需要添加以下的三个参数。
webmagic 添加相关的参数
添加相关的参数以后发现请求失败。如图。
这里由于请求出错,所以根据问题进行排查。发现需要添加三个请求头。
添加请求头
使用postman挨个测试接口。
添加请求头
问题依旧呈现。
搜索问题
问题搜索下来说是去掉参数Content-Length 的问题。重新再次测试。
夜晚已经很深了,明天博主将会继续进行爬取对头部信息进行测试
小明菜市场
推荐阅读
●实战 | WebMagic 爬取某保险经纪人网站经纪人列表之网站列表爬取
●实战 | WebMagic 实现分布式爬虫
●实记 | MongoDB 多表连接查询
●新知 | MongoDB 账号管理
●方案 | Mongodb 高可用落地方案
领取专属 10元无门槛券
私享最新 技术干货