Python爬虫知识点一

LhWorld哥陪你聊算法

发布于 2018-09-13 15:24:30

59900

代码可运行

文章被收录于专栏：LhWorld哥陪你聊算法LhWorld哥陪你聊算法

运行总次数：0

代码可运行

一。入门知识：

1.1.HTTP简介 HTTP = HyperText Transfer Protocol URI = Uniform Resource Identifier URL = Uniform Resource Locator URI和URL的区别：URI强调的是资源，而URL强调的是资源的位置。 1.2常用请求类型 OPTIONS: 返回服务器针对特定资源所支持的http请求方法。 HEAD: 向服务器索要与get请求相一致的响应，只不过响应体将不会被返回。 GET: 向特定资源发出请求 PUT: 向指定资源位置上传其最新内容 POST: 向指定资源提交数据进行处理请求 DELETE: 请求服务器删除指定URI所标识的资源 PATCH: 用来将局部修改应用于某一资源 1.3HTTP常见状态码 200/OK：请求成功 201/Created: 请求已被实现，且一个新资源已根据请求被建立，URI跟随Location头信息返回。 202/Accepted: 服务器已接受请求，但尚未处理。 400/Bad Request: 请求无法被服务器理解 401/Unauthorized: 当前请求需要用户验证 403/Forbidden: 服务器已理解请求，但拒绝执行。 404/Not Found

1.4 爬虫框架介绍第一步：将种子URL放入队列第二步：从队列中获取URL，抓取内容。第三步：解析抓取内容，将需要进一步抓取的URL放入工作队列，存储解析后的内容 1.5 抓取策略深度优先：举例先完成专题一的所有内容，再完成专题二的所有内容。

广度优先 PageRank 大站优先策略举例：根据网站的Pr顺序指定优先级

1.6 如何去重 Hash表 bloom过滤器

1.7 爬虫质量标准

分布式可伸缩性性能和有效性质量新鲜性更新可扩展性

二。代码实施

import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate


class DefaultSaxHandler(object):
    def __init__(self, provinces):
        self.provinces = provinces

    # 处理标签开始
    def start_element(self, name, attrs):
        if name != 'map':
            name = attrs['title']
            number = attrs['href']
            self.provinces.append((name, number))

    # 处理标签结束
    def end_element(self, name):
        pass

    # 文本处理
    def char_data(self, text):
        pass


def get_province_entry(url):
    # 获取文本，并用gb2312解码
    content = requests.get(url).content.decode('gb2312')
    # 确定要查找字符串的开始结束位置，并用切片获取内容。
    start = content.find('<map name=\"map_86\" id=\"map_86\">')
    end = content.find('</map>')
    content = content[start:end + len('</map>')].strip()
    print(content)
    provinces = []
    # 生成Sax处理器
    handler = DefaultSaxHandler(provinces)
    # 初始化分析器
    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.EndElementHandler = handler.end_element
    parser.CharacterDataHandler = handler.char_data
    # 解析数据
    parser.Parse(content)
    # 结果字典为每一页的入口代码
    return provinces


provinces = get_province_entry('http://www.ip138.com/post')
print(provinces)

结果如下：

Ps: start方法中判断不等于map标签的即为area标签然后选取href title属性对应的值即可

持续更新中。。。。，欢迎大家关注我的公众号LHWorld.

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017-11-15 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

Python爬虫知识点一

Python爬虫知识点一

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐