Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >一步步编写自己的PHP爬取代理IP项目(一)

一步步编写自己的PHP爬取代理IP项目(一)

作者头像
NateHuang
发布于 2019-03-12 09:25:52
发布于 2019-03-12 09:25:52
6130
举报
文章被收录于专栏:开发经验记录开发经验记录

第一章节主要给大家普及一下爬虫的概念以及相关的知识,让大家对后面的学习打下扎实的基础。如果你是有经验的开发者,完全可以跳过第一章进入第二章的学习了。

这个项目主要围绕两大核心点展开:

1. PHP爬虫 2. 代理IP

咱们先讲讲什么是爬虫,简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

而我们最常见,用的最多的爬虫就是:百度。

百度就是利用这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,等着你去搜索。

还有各种类型的抢票软件,每一个爬虫都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上买下来。

随着时代的发展,人们发现并不是所有的爬虫都像百度、抢票软件这种帮助到我们的生活,也有许多非法入侵的爬虫,这些爬虫不仅帮助不到我们,甚至会让我们的许多信息泄露。

人们十分憎恨这种爬虫,于是这就诞生了另一门技术,反爬虫。

话说有一天,小明想去电影院看电影,但是不知道看哪一部电影好,于是他想从多个网站爬取一些影评来让自己更好的抉择看什么电影。于是小明写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影下面的影评页面,根据 Html 分析电影名字存进自己的数据库

但是电影网站的工作人员小红却不乐意了,你用爬虫把我们的影评爬走了,那谁还上我们网站啊,我们怎么卖广告盈利啊。小红发现某个时间段请求量陡增,分析日志发现都是 IP(X.X.X.X)这个用户,并且 useragent 还是 JavaClient1.6 ,基于这两点判断非人类后直接在Nginx 服务器上封杀。

小明发现自己的影评只爬了三分之一就被封了,于是也针对性的变换了下策略,每爬半个小时就换一个IP代理

于是这就涉及到我们项目的第二点,代理IP了。这个词对于一些刚入门的新手们也许有点陌生,其实代理IP我们也可以理解为是一台代理服务器。

代理服务器是介于浏览器和Web服务器之间的一台服务器,当你通过代理服务器上网浏览时,浏览器不是直接到Web服务器去取回网页,而是向代理服务器发出请求,由代理服务器来取回浏览器所需要的信息,并传送给你的浏览器

这样,电影网站的小红就无法识别哪个IP是我们,而我们也可以顺利获取到自己想要的影评啦。(不过实际中还有更多的方法进行爬虫的攻防,这里就不一一讲述了)。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018/09/14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一步步编写自己的PHP爬取代理IP项目(三)
上一章节我们讲完了自动加载,现在我们正式进入爬虫核心代码的编写中,首先我们需要先看看整个目录
NateHuang
2019/03/12
7360
一步步编写自己的PHP爬取代理IP项目(三)
一步步编写自己的PHP爬取代理IP项目(二)
这一章节我们正式开展我们的爬虫项目,首先我们先要知道哪个网站能获取到免费代理IP,目前比较火的有西刺代理,快代理等,这里我们拿西刺代理作为例子。
NateHuang
2019/03/12
5240
一步步编写自己的PHP爬取代理IP项目(二)
用nodejs写一个代理爬虫网站
nodejs有很多用途,除了操作文件和做web开发之外还可以做爬虫,今天就用简单的几行代码给大家演示一下,如何用nodejs实现一个代理爬虫。
挥刀北上
2019/07/19
1.7K0
用nodejs写一个代理爬虫网站
Python爬虫必备技能,使用 动态代理ip 爬取 Youtube游戏模块主页 示例
动态代理IP,字面意思来说这个IP会随时随机发生变化,不是固定的,就是动态代理IP。动态代理IP一般会有网络爬虫用户使用。
呆呆敲代码的小Y
2022/01/20
9790
Python爬虫必备技能,使用 动态代理ip 爬取 Youtube游戏模块主页 示例
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
我们在做爬虫的过程中经常会遇到以下情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。
不温卜火
2020/10/29
1K0
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
正确的使用HTTP代理
HTTP代理对于网络爬虫是一种很常见的协议,HTTP代理协议也是大数据时代不可缺少的一部分。HTTP代理在网络爬虫中发挥出了他大量用途。HTTP代理其实有许多用途,例如:刷票,爬虫,抢单,刷单,等等一系列业务 都适合HTTP代理。其实对于网络爬虫工作来着说,许多网络工作者都不知道如何使用HTTP代理。那么如何才能正确使用HTTP代理呢?
用户6172015
2020/11/16
1.3K0
爬虫的基本原理
如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,
py3study
2020/01/20
1.6K0
Java爬爬之网页去重和代理ip
之前我们对下载的url地址进行了去重操作,避免同样的url下载多次。其实不光url需要去重,我们对下载的内容也需要去重。
大忽悠爱学习
2021/12/20
7240
Java爬爬之网页去重和代理ip
php获取客户端ip以及ip伪造
声明:因为使用了cdn之后无法正常的获取客户端ip,则做此次记录,仅供学习交流,请不要用于非法用途,由此教程产生的法律问题均与本人无关!
天方
2022/09/14
5.5K0
Python爬虫-代理ip爬取电商数据实战
作为一名Python博主,爬虫技能对于获取和分析数据至关重要,经常爬一下,有益身心健康嘛。爬虫技术对很多人来说,不仅仅是一种工具,更像是一种艺术,帮助我们从互联网中,捕捉到有价值的信息。我经常就会用爬虫来爬取一些所需的数据,用来进行数据分析和模型训练。虽然网络上公开的数据很多,但是碍于其时效性和准确性,很难拿来直接用,所以我总是亲自来爬取数据。
是Dream呀
2024/07/24
1820
【python】使用代理IP爬取猫眼电影专业评分数据
在编写爬虫程序的过程中,IP封锁无疑是一个常见且棘手的问题。尽管网络上存在大量的免费IP代理网站,但其质量往往参差不齐,令人堪忧。许多代理IP的延迟过高,严重影响了爬虫的工作效率;更糟糕的是,其中不乏大量已经失效的代理IP,使用这些IP不仅无法绕过封锁,反而可能使爬虫陷入更深的困境。
小白学大数据
2024/06/08
1540
爬取电影网站票房信息并进行数据可视化
本文章适合有编程基础的人和对于编程有浓厚兴趣的人作为参考,本篇文章仅涉及简单的反爬措施(协议头信息),不涉及IP代理、登陆等高端的措施,还涉及几个较为常用的模块(requests,matplotlib等),如想了解更多信息,请参考我的另一篇推文.
石璞东
2019/07/26
1.8K0
python爬取数据中的headers和代理IP问题
爬虫的主要爬取方式之一是聚焦爬虫,也就是说,爬取某一个特定网站或者具有特定内容的网站,而一般比较大的有价值的网站都会有反爬策略,其中常见的反爬策略是网站根据来访者的身份判定是否予以放行。
小白学大数据
2023/05/24
3600
浅谈代理IP是什么
代理IP又称代理服务器(Proxy Server)。是一种重要的安全功能,能起到防火墙的作用。
用户6049522
2019/08/16
2.3K0
为什么PHP爬虫抓取失败?解析cURL常见错误原因
豆瓣电影评分作为中国电影市场的重要参考指标,凭借其广泛覆盖的观众反馈和真实评分,成为电影市场推广和策略优化的核心依据之一。通过精准获取这些评分数据,电影制作方和发行方可以更好地理解观众需求,优化宣传策略,并作出科学决策。
jackcode
2024/11/26
1430
为什么PHP爬虫抓取失败?解析cURL常见错误原因
我裂开了,教给他如何搭建和使用代理服务器,他居然用来做这么不正经的事(爬虫,代理ip)
在使用爬虫对某些网站进行爬取时,为了不让网站发现我们的ip,模拟其他用户ip地址去访问网站。也就相当于间接的去访问网站,流程如图:
大家一起学编程
2021/07/08
3.1K0
我裂开了,教给他如何搭建和使用代理服务器,他居然用来做这么不正经的事(爬虫,代理ip)
Python爬虫必备技能,使用 动态代理ip 获取Steam 热销商品 示例
动态代理IP,字面意思来说这个IP会随时随机发生变化,不是固定的,就是动态代理IP。动态代理IP一般会有网络爬虫用户使用。
呆呆敲代码的小Y
2022/07/07
8880
Python爬虫必备技能,使用 动态代理ip 爬取 Youtube游戏模块主页 示例,不翻墙无版权
动态代理IP,字面意思来说这个IP会随时随机发生变化,不是固定的,就是动态代理IP。动态代理IP一般会有网络爬虫用户使用。
全栈程序员站长
2022/09/07
1.3K0
Python爬虫必备技能,使用 动态代理ip 爬取 Youtube游戏模块主页 示例,不翻墙无版权
爬虫为啥需要大量的ip_简述网络爬虫的工作原理
爬虫工作者在试用爬虫进行数据搜集的过程中经常会遇到这样的情况,刚开始的时候爬虫的运行情况是正常的,数据的抓取状况也在有条不紊的进行着,然而可能你一眼照顾不到就会出现错误,比如403 Forbidden,这时候你打开网页的话,网页上面会提示你,“您的IP访问频率太高”这样的字眼。出现这种现象的原因就是被访问网站采取了反爬虫机制,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。
全栈程序员站长
2022/11/10
4520
带你了解代理 IP 那些事
在爬取某些网站时,我们经常会设置代理 IP 来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商(如西刺代理,快代理,无忧代理等)的免费代理。这些代理商一般都会提供透明代理,匿名代理,高匿代理。那么这几种代理的区别是什么?我们该如何选择呢?本文的主要内容是讲解各种代理 IP 背后的原理。
猴哥yuri
2018/09/21
1.1K0
带你了解代理 IP 那些事
推荐阅读
相关推荐
一步步编写自己的PHP爬取代理IP项目(三)
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文