1,安装
安装超时的问题:
scrapy需要安装依赖有:
twisted:必装,scrapy基于twisted
scrapy:必装
pywin32:必装
pillow:选装,图片下载需要用到
2,创建
3,配置
settings.py
items.py
4,报错
如果单纯获取文本,那么只需start_urls是一个list;而如果获取图片,则必须start_urls与item中存储图片路径字段这两者必须都是 list。
凡是TypeError都是数据类型的锅,通常因为dict,list,str没分清楚,可以用print(type(XXX))查看数据类型。
凡是No module named的都是缺少库,下载对应的库即可。
这种错误通常是因为请求队列排序出错,需要在settings.py里找问题。我在注释了下一行之后解决了问题。
5,其他
选择器有三种,css,xpath,re正则都可以,返回类型都是Selector类型,需要从selector变为数据,则在后面加上.extract() 或 .extract()_first() 或.extract()[x](x为list中元素的下标)
最新的版本可以用get()和getall(),get()得到的是str,getall()得到的是list
如果要提取更具体的信息,可以用正则表达式的方法,在后面加上 .re() 或 .re()_first 进行嵌套选择。
领取专属 10元无门槛券
私享最新 技术干货