上次提到“爬虫”这个词,已经从单纯的动物指代,变成了“采集网络数据”的新时尚词汇。也提到了网络协议三要素:语法、语义、时序。开始把一个个爬虫程序理解为一个个网络机器人,那么接下来就再简单说一说机器人可能会遇到哪些困难。
首先,键盘、鼠标、眼球捕捉仪等计算机的外接设备,对于爬虫来说都不是问题。同样的,信息的实际载体也不会是大问题。比方说,很多内容是通过浏览器看到的,还有不少好玩的是需要在移动设备上安装App,即应用程序。都不是问题。
其中,凡是通过有线、无线连接的设备,自然就能有工具去解析出数字信息。此外,浏览器、应用程序、软件,一般是以为就运行在某台物理机器上,像是电视、手机、平板电脑之类的。实际上,他们是依附于操作系统的,像是微软、塞班、安卓、苹果、鸿蒙等等。只要是在操作系统内,就有非常多的工具可以使用去进行行为模拟了,比如自动化测试工具。
轻松登陆了信息的实际载体这个阵地后,爬虫的下一步计划就是“挖矿”啦!读取信息,或者有选择的读取所需的信息。
网络信息的表达方式通常都很直接,是“公布天下”式的。不信?大可以在浏览网页时,通过鼠标右键查看源代码,经常会发现网页的文本、加载处理的脚本、字体来源、针对特殊群体的无障碍功能设计等等。爬虫可以随意访问到这些信息。
对于可以随意访问的网站,爬虫可能就真的是排山倒海般随意访问起来了,这对网站的建设工程师们来说可不是什么好事情,所以,在随意访问的基础上,往往又会加以限制,比如:时不时跳出弹窗提醒休息一下啦,验证码,限制访问次数。
也不是所有的信息都是开诚布公的,有些是“申请制”的。最常见的就是需要注册、登陆后,才予以访问、下载。
信息发布方式的差别,对爬虫的影响微乎其微。真正能让爬虫抓耳挠腮的,是信息的传递、排版、加密方式。虽然上述的发布方式也可以视为传递的一部分,但这只是人为感受到一部分,计算机网络通信中还可以有更多、更复杂的传递内容,爬虫如果没有把自己伪装彻底,就很可能暴露自己的机器人身份:今天某网站来了一位将被重点关照的可疑的不速之客。
信息的排版也会让爬虫很是头疼。同样的几段文本,可能会在送达上网人的肉眼之前再加一道工序:呈现出一篇文章,而爬虫得到的就是几段文本。这个时候的爬虫就该思考一下人生:到底是为了获取什么样的信息而来,又该带走什么。
最后说一下加密,一般就是编码,而且都是常用的几个,毕竟网络信息是被看、被用、被分享的,不全是网络安全大赛的争夺,所以,大体上并没有什么神奇的地方。如果爬虫倒在了这一步,那大可掉头放弃,不可在犯罪边缘疯狂试探哦!
文/良宵听雨。授权“游戏夜读”发表。
领取专属 10元无门槛券
私享最新 技术干货