每个人
都是一体两面
一个外我 一个内我
外我是外部行为的结果表征
内我是内心深入价值的映射
有的人
把初心扎根在内心深处
时刻指引自己前进的方向
有的人
初心被世俗遮上了一层尘土
迷失了方向 随波逐流
愿每个人
都怀揣着一颗初心
在自己的道路上不断前行
今天,从全局的视野剖析Python爬虫,分析爬虫可能涉及到的方方面面,了解爬虫可能涉及到的知识点!
Part1-Road Map
Part2-Analysis
I - Python环境:基于Python的爬虫,电脑中必须具有Python环境,否则系统无法运行。Python环境大致可分为两类,一类是Python官方软件,一类是第三方Python集成环境,例如Anaconda、Canopy、WinPython等,黄象探长仅用过Anaconda,大家选取一个适合自己的就可以。
II - 存储环境:我们抓取的数据可以到本地文件,例如txt、CSV、Excel等文件中,也可以存储到数据库中。当存储到数据库中时,需要系统中具有数据库环境,因此电脑中需要安装MySQL、Mongo等数据库,其中MySQL是存储结构化数据的,而Mongo是存储半结构化数据的。
III - 爬虫库:具体与爬虫有关的库可以分为请求库、解析库、存储库等,其中请求库是用来请求页面,获取页面源代码的Python库,有Python自带的urllib以及第三方的requests、selenium库;解析库是对获取到的源代码解析的Python库,从源代码中提取我们需要的信息,有Python自带的re库以及第三方的beautifulsoup、pyquery库;存储库是对提取的数据信息进行保存的Python库,把提取到的数据信息存储到本地文件、数据库中,方便我们随时使用,有pymysql、pymongo等库。
IV - 爬虫框架:以上内容完全可以帮助我们构建一个Python爬虫程序(通过直接编码的方式),但为了简化爬虫工作,使我们不被繁杂的代码所累,Python框架应运而生,它使我们仅关注爬虫的逻辑,简化了我们的工作,经常用到的爬虫框架有Scrapy、PySpider等。
V - 其他:同时我们爬虫过程中可能会遇到其他的问题,例如大量数据时分布式爬虫的搭建、反爬技术的破解等。
以上就是Python爬虫可能会涉及到的知识点,希望能帮助大家对爬虫有一个基本了解!
茫茫人海中 期待与你相遇 在你我最美丽的时刻
领取专属 10元无门槛券
私享最新 技术干货