HTTP (HyperText Transfer Protocol),超文本传输协议。
官方的话,就上面那些也就足够, 我们今天要说的就是,爬虫于HTTP协议之间的关系。同样的色狼的视角来审视这个事情。今天的色狼题目是,如何通过微信能够获取女神的信任,继而可以约出来一起做些什么。
色狼逻辑:微信就是当今与女神远程接触的一种公众认可的方式,那么如何能够用好我们的微信,与女孩有好的接触,建立信任的感觉呢。
爬虫逻辑:HTTP就是当今访问网站的一种共用的方式,那么我们如何用好HTTP才能达到与网站的更好的接触呢。更好的建立信任。
色狼逻辑:首先,需要将自己伪装成正常的男性,而不是自己签名上贴着PUA大神的牌子去找女神。其次,尽量找女神熟悉的,信任的人介绍,才能让女神获得安全感。或者就是在朋友圈发布一些女神比较信任的朋友的合照。最后,要熟记女神给你的信息,这样女神会比较信任之前已经有过很多沟通的人,能省去再次建立信任的麻烦。
爬虫逻辑:网站对爬虫的忌惮主要在两个方面:首先,爬虫只是爬取数据,并不是会真正带来效益。其次,一些爬虫不遵守爬虫的协定,快速访问网站,会导致网站不能提供正常服务。所以很多网站会想方设法识别你是爬虫。所以网站的反爬手段包括:标签,爬虫如果不刻意伪装都会有自己的标签,user-agent。介绍人,你从哪个页面跳转到当前的页面的,referer。请柬,之前传递给你的信息,你是否还有保留。正常的访问都会有保留这个请柬的,cookie。包含这些信息的是你的访问头,也叫 headers。它之中最重要的三项内容也就是user-agent,referer,cookie。其它的一般反爬虫不会要求。headers 结构如下:
色狼逻辑:不能总是高频率的联系女神,即使女神对你有兴趣,高频率的联系女神会对女神的生活造成困扰。她会觉得你很闲,没有上进心。她会觉得你很贱,总是巴结着她。她会觉得你很烦,总要给你回信息。
爬虫逻辑:总在服务端爬取信息,会造成无用的点击量。也可能会给服务器造成很大的负担,甚至是挂掉。所以服务器可能会对当前访问频繁的IP进行封杀,以便于这种爬虫程序能够有节制的访问服务器。所以面对之中的情况,请放慢你的速度,多用几个ip。
色狼的终极逻辑:装成高富帅,老熟人。
爬虫的终极逻辑:装成浏览器,正常人。
近之则不孙,远之则怨。
领取专属 10元无门槛券
私享最新 技术干货