在很多机器学习应用中,天气数据为重要的辅助特征数据,故本文主要介绍如何利用Python获取历史天气数据。
目标网站
数据爬取的目标网站为天气网
编程实现
导入相关包
下面以爬取北京市历史天气数据为例进行演示:
获取所有月份URL
分析网页源代码可知,所有月份的URL在’tqtongji1’的div中。
实现代码如下:
获取某月份的历史天气数据
获取到月份URL后,分析月份的页面源代码可知,历史天气数据在’tqtongji2’的div中。
源代码如下:
获取某年的历史天气数据
将各月份的数据汇总即可得到年历史天气数据。
源代码如下:
执行’resultdf = getyearweather(requesturl, 2017)’,结果如下:
详细代码及说明可访问我的GitHub:https://github.com/Ruanshubin
领取专属 10元无门槛券
私享最新 技术干货