前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >家养爬虫的Python技术 | 资料总结

家养爬虫的Python技术 | 资料总结

作者头像
数说君
发布于 2018-04-04 08:29:43
发布于 2018-04-04 08:29:43
9860
举报
文章被收录于专栏:数说工作室数说工作室

之前有一个讨论:

文本分析,一个很重要的环节就是网络的数据爬取。爬虫是获取数据的一个重要手段,很多时候我们没有精力也没有资金去采集专业的数据,自己动手去爬数据是可行也是唯一的办法了。所以,本文对如何“家养”爬虫的技术资料进行了系统的总结。

因为Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,因此本文总结的资料主要是关于Python的,适用于零基础的同学。

1. Python

如果完全没有Python的基础,建议看下面的教程如个门:

【统计师的Python日记】

(直接点击)

2. 初级爬虫

【推荐资料】

Python爬虫学习系列教程

http://cuiqingcai.com/1052.html

这个资料可以帮助我们了解一下爬虫的初级内容,如URL的含义、urllib和urllib2库的使用、正则表达式、Cookie的使用等等,也熟悉一下后面可能用到的基本名词,比如response、request等。

(在微信公众号里回复【sasre】,看正在更新的SAS正则表达式系列,至少可以了解一下什么是正则表达)

3. Scrapy

大名鼎鼎的Python爬虫框架—Scrapy。Scrapy是为了网页抓取所设计的应用框架,也可以用在获取API(例如 Amazon Associates Web Services ) 所返回的数据或者通用的网络爬虫。

这里分享一些数说君总结的资料。

(1)Scrapy的安装

分享一下我自己在windows环境下的安装方法:

  • 安装Anaconda。Python的很多库装起来很麻烦,我周围很多朋友在刚接触Python的时候,都被各种安装折磨的”不想在继续学下去了“。而Anaconda是一个开源的免费的python类库的集合,里面自带200+的包和各种依赖包。
  • 安装Scrapy库。Anaconda自带那么多东西,但是没有Scrapy,没关系,它自带了各种依赖库,所以安装起来没有那么多阻碍,直接在cmd中输入: conda install scrapy

以上就完成了安装。在cmd中尝试输入

scrapy startproject myspider

咦,已经创建一个爬虫项目了呢!

(2)入手一个例子

我个人的习惯是,不喜欢一上来就学习很多理论性的东西,偏好从一个例子入手,依样画葫芦的写一遍代码,让我更有想要了解的动力。

【推荐资料】

建立一个简单的爬取南邮新闻标题的爬虫demo

http://t.cn/RLeN3eF

这篇文章用一个很简单的例子,把整个流程走了一遍,初步了解的Scrapy的框架,也留了很多不懂的地方,以待下一步的学习。

(3)系统学习Scrapy

当然是官方文档了:

http://doc.scrapy.org/en/latest/intro/install.html

这里也有好人进行了翻译:

https://scrapy-chs.readthedocs.org/zh_CN/1.0/index.html

当涉及到一些其他的知识的时候,文档会给出相关的资料链接,这点真的太棒了,并且中文版本或给出中文的资料链接!

比如关于xpath的:

(4)试着爬取一些熟悉的网站

一边学,可以一边试试手,爬一下自己熟悉的网站。

这里有几个例子供大家参考

  • Scrapy 抓取豆瓣电影 http://t.cn/Rbuad4r
  • 利用Python抓取亚马逊评论列表数据 http://www.tuicool.com/articles/nUvIja
  • Scrapy轻松抓取bbs数据 http://t.cn/RbuasDs

关于Python爬虫,欢迎大家一起交流,在最下方的评论区里留言。

也欢迎参与文本分析的讨论:

将会继续为大家带来网页爬取、文本分析的资料总结。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
数据采集传输仪钢铁厂环境污染监测
自生态环境保护理念被提出以来,相关部门对于工业污染治理不遗余力,旨在进一步减少工业污染排放,提高污染治理水平,切实解决一批影响空气质量的工业源问题,对于不合规企业限期进行整改,对拒不履行环保责任的企业,依法给予处罚。
星辰大海大星
2021/10/29
5620
数据采集传输仪钢铁厂环境污染监测
工业路由器下的机动车尾气在线监测方案
随着时代的发展,经济水平不断得到提高,人民的生活水平也得到日益改善,私家车成为很多家庭的必备代步工具,但是增多的汽车带来了严重的尾气排放。目前机动车尾气已成为空气污染中具备数量多、增长快、流动强、分散广等特性的污染源。
用户7348788
2020/06/19
4190
环保数采仪助力空气质量在线监测系统
空气的质量和人民生活健康息息相关。目前,空气污染源影响空气质量的最主要因素之一是来自固定和流动污染源的人为污染物排放,包括车辆、船舶、飞机的尾气、工业污染、居民生活和取暖、垃圾焚烧等。
用户7348788
2020/06/23
6550
环保数采仪下的污染物PM2.5在线监测方案
随着人们的生活水平的提高,对空气质量关注度越来越高,尤其是对人体危害较大的PM2.5。由于近年来各大城市建设发展进程的加快,城市面积与人口规模不断扩大,能源需求、机动车保有量、各类施工项目持续增长,城市空气质量提升工作面临的形势更加严峻。空气质量差的主要原因较为复杂,包括汽车尾气污染加剧、高污染燃料污染严重、建筑工地扬尘等。其中建筑工地和企业生产产生的污染则可以通过严格的管理手段得以控制,是目前能够在短时间能实现立竿见影的控制污染源,如何实现严格监管和控制是目前需要解决的问题。
用户7348788
2020/06/04
6390
边缘智能网关如何应对环境污染难题
随着我国工业化、城镇化的深入推进,包括大气污染在内的环境污染防治压力继续加大。为应对环境污染防治难题,佰马综合边缘计算、物联网、智能感知等技术,基于边缘智能网关打造环境污染实时监测、预警及智能干预方案,可应用于大气保护、水体保护、土壤保护、植被保护、生物保护等丰富场景,协力构建可持续发展的人居环境。
智慧物联小马
2023/12/11
2330
边缘智能网关如何应对环境污染难题
探营:空气质量监测数据这样出炉
每天,申城的空气质量是优是良,PM2.5的浓度是低是高,成为市民最关心的问题之一。随着上海空气质量监测能力的建设,目前全市已经实现一区一报,一小时一报。 不过,这些实时变化着的数字,不少市民也心存疑问:PM2.5通过哪些仪器测量?监测数据如何传输,得出数据值?身边有多少个“藏”起来的监控点?为何有时公布的空气质量监测数据,与自己的感受不太一样?日前,记者探营上海市环境监测中心,请来高级工程师一一解惑。 监测站里看监测 屋顶平台“站”着几个尖顶三脚架,三脚架的“尾巴”穿过屋顶连接到地面监测室的测量仪器,一
大数据文摘
2018/05/23
6660
红色预警尚未结束,北京启用机器学习预测空气污染
【新智元导读】今年冬天北京启用雾霾预警系统,将传统的大气化学物理模型与机器学习相结合,力求在更短的时间内做出更精确的预测。12月16日启动的今年首次空气重污染红色预警,预计到12月21日夜间起逐步改善。 这几天,北京笼罩在团团浓雾中。12月16日,北京市发布了 2016 年首个雾霾红色预警,这意味着将连续 4 天以上出现重度及以上级别的空气污染。据新闻报道,北京已有 1200 家工厂停工或减少生产。 不只是北京,根据 2015 年世界卫生组织的全球疾病负担研究,2015 年大气悬浮颗粒物(不包括烟草烟雾)相
新智元
2018/03/26
1.1K0
红色预警尚未结束,北京启用机器学习预测空气污染
5g DTU 无线数传终端应用
DTU无线数传终端TD210全网通2G/3G/4G网络,实现串口数据与IP数据的转换,DTU作为串口数据的无线终端设备,可广泛应用于各行各业。
星辰大海大星
2021/10/13
7760
5g DTU 无线数传终端应用
借助工业4G dtu实现对旧小区管网无线监测
我国已历经数十年的城市化发展建设,当前城镇化率已达约65%。但伴随岁月的洗礼,城市里一些早年建设的老旧小区基础设施日益老化,尤其是水电气、卫生、消防、排水等管网系统,因设施老化,不仅导致功能性变差,还平添了各种安全隐患。
智慧物联小马
2023/12/01
1510
借助工业4G dtu实现对旧小区管网无线监测
「嘉年华观会」技术方案怎么讲
十八大以来,党中央、国务院把生态文明建设和生态环境保护摆在更加重要的战略位置,党的十九大明确指出必须树立和践行绿水青山就是金山银山的两山策略;2021年3月《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确:深入打好污染防治攻坚战,建立健全环境治理体系,推进精准、科学、依法、系统治污,协同推进减污降碳,不断改善空气、水环境质量,有效管控土壤污染风险。
爱艺江河科技
2024/09/19
862
[独家]大数据版穹顶之下:清华人气男模解码雾霾分布
【本期嘉宾】 【导读】:柴静的一部穹顶之下将对雾霾的讨论推到风口浪尖,与此同时在太平洋的另一端,一群来自中国大陆的合伙人也在针对雾霾展开一场大数据战场的较量。 怎样的“个人恩怨”引发了针对雾霾的创业
大数据文摘
2018/05/21
8770
好文速递:从Terra测得的空气污染趋势:工业区、易燃区和本地值区域的CO和AOD
摘要:在过去的研究中使用卫星观测来量化全球一氧化碳(CO)的年代际趋势之后,我们更新了估计并发现2002年至2018年之间每年CO趋势的柱量约为−0.50%,与进行的分析相比,这是一个减速度每年发现-1%的较短记录。火灾和人为源共同产生的气溶胶与一氧化碳共排放,但寿命比一氧化碳要短。结合空间趋势分析和从太空测量气溶胶光学深度(AOD)有助于诊断CO趋势中区域差异的驱动因素。我们使用对流层污染测量(MOPITT)中CO的长期记录以及中分辨率成像光谱仪(MODIS)中的AOD的长期记录。其他在热红外,AIRS,TES,IASI和CrIS中测量CO的卫星仪器显示出一致的半球CO变异性,并证实了MOPITT CO进行的趋势分析的结果。2002年至2018年,半球和区域对趋势进行了检查,不确定性量化。CO和AOD记录分为两个子时段(2002年至2010年和2010年至2018年),以评估16年中的趋势变化。我们关注四个主要的人口中心:中国东北,印度北部,欧洲和美国东部,以及两个半球的易火地区。总体而言,与下半年相比,记录的上半年CO下降速度更快,而AOD趋势显示各地区之间的差异更大。我们发现空气质量管理政策对大气的影响。在中国东北发现的一氧化碳的大幅下降最初与燃烧效率的提高有关,随后从2010年起空气质量进一步提高。随着全球CO趋势的减弱,采用最小排放控制措施的工业区(例如印度北部)变得更具全球意义。我们还检查了每月百分比值的二氧化碳趋势,以了解季节性影响,并发现生物质燃烧的局部变化足以抵消全球大气二氧化碳下降趋势,特别是在夏末。
一个有趣的灵魂W
2021/04/29
4610
好文速递:从Terra测得的空气污染趋势:工业区、易燃区和本地值区域的CO和AOD
VOCs在线监测系统 自动监测 远程监控
VOCs,挥发性有机物。计讯物联VOCs在线报警监测系统,实现挥发性气体源头监测、过程控制、末端治理、精细管控,解决大气污染的难题,目标因子多参数采集,实时上报平台,数据清晰直观、精准,全面反映污染源排污情况以及污染处理设施运行情况。
星辰大海大星
2021/10/20
1.9K0
VOCs在线监测系统 自动监测 远程监控
基于边缘网关的智慧工地监测方案
边缘物联网技术为千行百业赋能,依托边缘计算的低延时、高效率、广适用优势,也为工程建设产业带来新的增长动力。
智慧物联小马
2023/10/08
2890
基于边缘网关的智慧工地监测方案
基于无线网关的多功能环境监测杆方案
我国幅员辽阔,地形地貌多样,针对环境资源的开发和保护,企业和国土部门对牧场,草场,动植物保护区、湖泊等广阔区域的环境状况监测都有广泛需求。包括监测荒漠侵蚀、绿化改造效果、土地质量、水气状况、温湿度状态等,对自然环境的数据采集和分析,关系到环境资源的高效合理利用。本方案主要介绍利用无线网关,搭建多功能环境监测杆,可以实现对自然环境数据的集中监测与传输。
智慧物联小马
2021/11/11
3570
基于无线网关的多功能环境监测杆方案
工业园区污染源在线监测 环保数据采集传输仪应用
工业园器废气、废水排放现象严重,如不严加管控监测将导致大气及水污染,甚至危害居民生命健康,重发展更重环保,工业制造可持续发展的道路一直是党中央高度重视的课题,计讯物联工业园区污染源在线监测,科技化管控解决环境污染的难题,做到治污监测、排污监测、大气质量水质量实时监测,打造青山绿水新园区。
星辰大海大星
2021/04/23
5340
工业园区污染源在线监测 环保数据采集传输仪应用
智慧路灯杆会用到哪些通信方式
智慧路灯杆系统的通信方式通常包括有线通信和无线通信。有线通信可采用光纤、网线、电力线载波等方式,且一般以光纤和网线为主,电力线载波为备选;无线通信可采用NB-IoT、3G/4G/5G、LoRa、ZigBee等方式。智慧路灯杆系统的各设备都需要联网,包括反馈数据、设备状态和下发控制指令等,佰马智慧路灯杆智能网关,同时支持有线和无线通信方式,实现智慧灯杆一站式入网上云。
智慧物联小马
2022/03/10
3980
智慧路灯杆会用到哪些通信方式
数采仪下工业污染源(废气)工况用电监测
以来我国工业制造污染情况严重,环境保护法对工业污染源废气排放提出要求。工业污染源废气工况用电监测解决废气排放监管治理的难题,使治理排放工作更趋科学化、智能化。
星辰大海大星
2021/11/30
2640
数采仪下工业污染源(废气)工况用电监测
物联网技术如何在环境保护行业中发挥作用?
物联网(IoT)在未来智慧城市中扮演着重要角色,物联网几乎可以用于政府公共服务的所有场景,以使城市环境更加环保。传感器支持的设备可以帮助监测环境对城市的影响,收集下水道、空气质量和垃圾的详细信息。这些设备也可以帮助监测森林、河流、湖泊和海洋。
用户2605137
2022/04/12
9890
物联网技术如何在环境保护行业中发挥作用?
政策指导科技赋能智慧环保可视化解决方案
山与水构筑了人类生活的自然环境,是生活中地平线上的天然风景。青山绿水,是最繁荣自然的一种良性生态,是人类可持续生存和发展的基础。
物联网数据可视化PaaS平台
2022/04/19
9740
政策指导科技赋能智慧环保可视化解决方案
推荐阅读
相关推荐
数据采集传输仪钢铁厂环境污染监测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档