首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    分享-python爬虫遇到封IP+验证码+登陆限制,如何解决?

    现在国家在鼓励做大数据、全面进行数字化中国建设,很多企业包括很多有前瞻性的创业人都开始进军大数据,各种根据自己的擅长领域开始储备数据源,我们需要做大数据第一步就是利用网络爬虫技术解决数据源聚合问题。我2018年主要利用python3+mysql+cookie池+代理IP池自己研发了一套AI智能深度数据挖掘系统,主要是解决企业工商数据源、商标数据源、专利数据源、招标中标数据源、土地数据源、食品药品数据源等多种国家开放的数据源的聚合。当时在做企业工商数据源聚合挖掘时候遇到了封IP、验证码、还有会员登陆等等各种反爬机制,最终我通过各种技术方式解决了所有问题,下面将分享一下个人的一些经验。

    05

    如何判断代理IP使用成功

    当爬虫程序或采集软件配置代理之后,如何判断代理IP使用成功了呢?可以使用查询IP地址这类网站进行协助,例如使用代理IP去搜索百度IP或者访问https://www.ip138.com,这类网站会将HTTP请求的来源IP获取并通过HTTP内容返回,因此如果代理IP转发成功,目标网站返回的内容就应该是代理IP地址。一般会有下面几种情况: 1、代理直接转发 只要将返回的IP地址复制进入百度IP或者https://www.ip138.com进行检查,如果是爬虫服务器的IP地址表示代理IP转发失败,否则就表示代理IP转发成功。 2、代理多次转发 查询IP地址网站返回的内容,既不是爬虫服务器的IP地址,也不是爬虫程序或采集软件直接使用的代理IP地址,而是经过代理IP多次转发后,最后请求IP地址网站的代理IP地址。 3、代理自动转发 部分代理IP产品,会根据爬虫程序或采集软件的每个HTTP请求,自动分配不同的代理IP进行转发,出现每一次查询获取的IP地址都不一样,这样就能在数据采集的过程中,突破目标网站的IP限制行为。要注意这其中又会出现更复杂的情况是,部分IP查询网站会按照cookie等信息直接缓存返回内容,即使代理IP每次请求都会转发不同IP,这类IP查询网站也会返回重复的IP地址,造成代理IP自动转发失败的假象,下面提供demo 示例如下:

    01
    领券