简介:
话不多说,本文章直接介绍如何粗暴的用Python抓一波小哥哥
使用到的技术有:
使用到的库有:os, re, sqlite3, time, requests, lxml
Sqlite数据库名: data.db
…
第一步 确定目标1. 文字信息2. 图片信息第二步 分解目标1. 分析特征:2. 建立模型2.1. 分类页信息2.2. 标签页信息2.3. 小哥哥信息第三步 开始编写第四步 写在结尾第一步 确定目标
1. 文字信息
、、、
2. 图片信息
、小哥哥
第二步 分解目标
1. 分析特征:
入口信息披露
01
分类信息披露
02
03
标签信息披露
04
05
小哥哥页内信息披露
0607
URL特征
页码URL
http://www.shuaia.net/e/tags/index.php?page=&tagname=
页码URL
http://www.shuaia.net//index_.html
开始页面URL:
http://www.shuaia.net/
分类页面URL:http://www.shuaia.net//
标签页面URL:http://www.shuaia.net/e/tags/?tagname=
小哥哥URL:
http://www.shuaia.net/…
DOM特征
下面使用的是浏览器开发工具
分类DOM
08
标签DOM
09
小哥哥DOM
11
10
2. 建立模型
需要先建立好sqlite数据库:
这里写图片描述
这里写图片描述
这里写图片描述2.1. 分类页信息
处元素节点为下的所有标签内的节点的属性和文字信息为分类信息存放位置
Ps. 剔除URL不包含的内容
2.2. 标签页信息
处元素节点为下的所有标签内的节点的属性和文字信息为标签信息存放位置
2.3. 小哥哥信息
a. 分类页小哥哥
循环所有分类页码获取小哥哥URL
信息存放在: 处元素节点为下的所有标签内节点的属性、节点的属性
b. 标签页小哥哥
循环所有标签页码获取小哥哥URL
信息存放在: 处元素节点为下的所有标签内节点的属性、节点的属性
c. 清洗去重, 为小哥哥加上属性
d. 获取小哥哥其它属性
循环小哥哥属性获取元素节点
第三步 开始编写
通过分析模型开始编写代码:
第四步 写在结尾
感觉还可以优化, 如果你有好一点的建议或者问题,欢迎留言指正.嗯
SHI一样的文章, 如果没看明白一定是我没写好…
领取专属 10元无门槛券
私享最新 技术干货