首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

分享-python爬虫遇到封IP+验证码+登陆限制,如何解决?

现在国家在鼓励做大数据、全面进行数字化中国建设,很多企业包括很多有前瞻性的创业人都开始进军大数据,各种根据自己的擅长领域开始储备数据源,我们需要做大数据第一步就是利用网络爬虫技术解决数据源聚合问题。我2018年主要利用python3+mysql+cookie池+代理IP池自己研发了一套AI智能深度数据挖掘系统,主要是解决企业工商数据源、商标数据源、专利数据源、招标中标数据源、土地数据源、食品药品数据源等多种国家开放的数据源的聚合。当时在做企业工商数据源聚合挖掘时候遇到了封IP、验证码、还有会员登陆等等各种反爬机制,最终我通过各种技术方式解决了所有问题,下面将分享一下个人的一些经验。

05
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    宝塔BT面板PHP防CC

    一个静态页面不需要服务器多少资源,甚至可以说直接从内存中读出来发给你就可以了,但是博客论坛等PHP程序就不一样了,Nginx、Apache需要运行PHP程序对.php文件进行解析。再由php到数据库中读取相关展示内容以及判断是否有读帖子的权限,显示出来——这里至少访问了2次数据库,如果数据库的数据容量有200MB大小,系统很可能就要在这200MB大小的数据空间搜索一遍,这需要多少的CPU和IO资源?如果我是查找一个关键字,那么时间更加可观,因为前面的搜索可以限定在一个很小的范围内,比如用户权限只查用户表,帖子内容只查帖子表,而且查到就可以马上停止查询,而搜索肯定会对所有的数据进行一次判断,消耗的时间是相当的大。

    05
    领券