首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

跟风说一说爬虫

爬虫,原本是一类动物的指代。但对熟悉计算机网络的人来说,说起爬虫,第一个想到的就是网络数据的采集行为。

计算机网络不是直观的事物,它不像自行车一样一目了然。对于自行车,我们不仅熟悉车把、链条、坐垫、脚踏板、轮胎、轴承等配件,也能亲身体验速度、惯性、平衡的物理奥妙。但计算机网络不同,除了电缆、光纤,其他的都神秘。

想要化身电流的一份子:电子。体验一趟趟云霄飞车、电击、拥挤、千锤百炼……不妨想象一下超大型过山车的感受。

网络不仅是一种技术,更是我们用来存储、获取、交流信息的工具。其中跟我们关心的信息,关系最紧密的一个概念,可能非“网络协议”莫属了。网络协议本身的内容挺复杂,也有不少的标准,实际操作中一般都会提到:网络协议三要素。

是哪三要素呢?常见的说法是,语法,语义,时序。语法会定义计算机网络语言,基本上是一些数据符号的事情,通常被解释为“怎么讲”。语义,就跟我们所理解的信息内容非常接近了,基本上是讲怎么把那些干涩的数据符号吃透:弄明白今天的一个字母代表的是苹果,到了明天这个字母就是代表香蕉了,诸如此类,通常被解释成“讲什么”。时序,有时也全称为时序规则,主要是时间上的考量和分析,一般不直接挂钩被传递的信息内容。

说到这里,我们日常在计算机网络上搜索、讨论、发文件等等,除了网速快慢,主要涉及语法、语义。话说回来,爬虫就是模仿人类上网冲浪的行为,可以把一个个爬虫程序理解成是一个个网络机器人,由此,爬虫工程师也就不那么神秘了。

文/良宵听雨。授权“游戏夜读”发表。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190804A0EIKZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券