爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考:Python学习指南
实际上爬虫一共就四个主要步骤:
以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。
数据,可分为非结构化数据和结构化数据
非结构化数据
结构化数据
文本、电话号码、邮箱地址
HTML文件
JSON文件
XML文件
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!