首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何判断代理IP使用成功

    当爬虫程序或采集软件配置代理之后,如何判断代理IP使用成功了呢?可以使用查询IP地址这类网站进行协助,例如使用代理IP去搜索百度IP或者访问https://www.ip138.com,这类网站会将HTTP请求的来源IP获取并通过HTTP内容返回,因此如果代理IP转发成功,目标网站返回的内容就应该是代理IP地址。一般会有下面几种情况: 1、代理直接转发 只要将返回的IP地址复制进入百度IP或者https://www.ip138.com进行检查,如果是爬虫服务器的IP地址表示代理IP转发失败,否则就表示代理IP转发成功。 2、代理多次转发 查询IP地址网站返回的内容,既不是爬虫服务器的IP地址,也不是爬虫程序或采集软件直接使用的代理IP地址,而是经过代理IP多次转发后,最后请求IP地址网站的代理IP地址。 3、代理自动转发 部分代理IP产品,会根据爬虫程序或采集软件的每个HTTP请求,自动分配不同的代理IP进行转发,出现每一次查询获取的IP地址都不一样,这样就能在数据采集的过程中,突破目标网站的IP限制行为。要注意这其中又会出现更复杂的情况是,部分IP查询网站会按照cookie等信息直接缓存返回内容,即使代理IP每次请求都会转发不同IP,这类IP查询网站也会返回重复的IP地址,造成代理IP自动转发失败的假象,下面提供demo 示例如下:

    01

    网络协议分析02(zhuan 程震老师 用于期末复习)

    1. 版本(4位) 2. 首部长度(4位) 单位4字节,为什么? 3. 区分服务(8位) 以前叫做服务类型,说明此IP数据报对路由器的要求,但很少使用。最后两位为ECN,由RFC 3168规定,是路由器对接收计算机的显式拥塞通告。 4. 总长度(16位)。 单位为字节,死亡之ping,ping –l命令。 5. 标识(16位)、6.标志(3位)、7.片偏移(13位) 这3个字段用于分片与还原。MTU(最大传输单元):帧的数据部分长度上限。如果IP数据报超过此值,则需要分片,分片可以发生在发送计算机,也可以发生在路由器,在最终的接收机还原。 分片只分数据部分。 标识:每发送一个IP数据报就加1,若干分片的此字段相同,可以知道属于同一IP数据报。 标志:左边一位未用,中间一位DF(1:不能分片,0:能分片),右边一位MF**(1:后面还有分片,0:后面没有分片了,这是最后一片)。** 片偏移:指明分片在原IP数据报中的位置。单位是8字节,为什么? 例子:原数据报20+3980字节。

    02

    Linux从入门到精通系列之Squid代理服务器

    首先呢我们来介绍下Squid:    作为一种免费的网络操作系统,Linux越来越受到广大网络爱好者的欢迎,目前因特网(Internet)上运行的主机有相当一部分采用的就是linux操作系统,而且中国已经把linux操作系统作为政府上网年的指定网络操作系统,种种迹象表明,linux操作系统正在逐渐走向成熟。在本章我将向大家介绍一种能在Linux系统下使用的比较优秀的代理服务器软件的配置方法。    众所周知,当今因特网发展速度极其迅猛,IP地址资源非常紧张。而如果您想访问因特网,共享因特网的丰富资源,您的机器必须拥有一个标准的IP地址。在因特网上,IP地址是识别您的机器的唯一标志。目前,有两种方式可以让您的机器拥有标准的IP地址:一种是局域网通过专线接入因特网,您的机器可以拥有静态的IP地址。所谓静态IP地址,就是对使用者来说,是固定不变的IP地址,这个IP地址给您使用后,其他人就不能再用了。一种是通过电话线拨号或ISDN拨号等方式接入因特网,您的机器可以在您拨号上网的在线期间从ISP的访问服务器的IP地址池中获得一个临时的标准IP地址,这个IP地址在您下线后就不归您使用了,而您下次拨号再上网,很可能分配给您的机器的是另外一个临时的IP地址了。这种临时分配的IP地址,称为动态IP地址。无论是静态地址还是动态地址,在您的机器访问因特网时,使用起来没有什么区别。    现在因特网发展速度这么快,而IP地址资源又这么紧张,这不能不说是一个尖锐的矛盾。虽说Ipv6正在开发中,但远水不解近渴,好多的企业、公司内部的Intranet现在就想接入因特网这个浩瀚的资源海洋,但又苦于没有充足的IP地址资源,怎么办?还好,有代理服务这个好东西。代理服务是指由一台拥有标准IP地址的机器代替若干没有标准IP地址(以下称内部地址)的机器和因特网上的其他主机打交道,提供代理服务的这台机器称为代理服务器。拥有内部地址的机器想到因特网上查找资料时,先把这个请求发给拥有标准IP地址的代理服务器,由代理服务器把这个请求通过它的标准IP地址发到请求的目标地址。然后目标地址的服务器把返回的结果发回给代理服务器,代理服务器再原封不动的把资料发给最初那台拥有内部IP地址的机器。这样就完成了一次内部机器访问因特网的一个过程。若干拥有内部地址的机器就组成了内部网,代理服务器的作用就是勾通内部网和因特网,解决内部网访问因特网的问题。而且这种代理是不可逆的,因特网上的主机不能访问任何一台拥有内部地址的机器,这样又可以保障内部资料的安全性。    能够完成这种代理功能的服务器软件有好多,我给大家推荐一种能在linux下使用的比较优秀的代理服务器软件Squid。之所以说它比较优秀,是因为它可以在代理服务器上作一个很大的缓存,可以把好多常去的网站内容存储到缓存中,这样,内部网的机器再访问那些网站,就可以从缓存里调用了。这样一方面可以加快内部网浏览因特网的速度,这就是所谓的提高客户机的访问命中率, 另一方面,Squid不仅仅支持HTTP协议,而且还支持FTP,GOPHER,SSL和WAIS等协议考虑到简捷实用的原则,我们本章只向大家介绍如何设置HTTP代理,而其他的代理大同小异,各位理解了HTTP的配置也就明白应该如何配置其他的代理了。 然后呢我们来说下所需的资源: 我这里使用的是squid-2.3.STABLE1-5.rpm。当然你可以选择源码包或者rpm。配置文件放在/etc/squid/squid.conf 系统自带,管理员配置。

    01
    领券