2020年的电影市场沉寂了大半年,随着国庆档几部影片的上映,差不多恢复到了往年的热度,不过打算看哪部电影不能仅看是否热门,更靠谱的是参考电影评分,更准确的说,是看豆瓣的评分。
这篇文章就来看看如何用PowerBI批量抓取豆瓣电影的数据。以最近正在上映的电影为例,豆瓣网址为:
https://movie.douban.com/
利用从web获取数据的功能,将这个网址放进去,就可以轻松获取这些影片的评分:
这种方式抓取的只有一个评分数据,其实在每部电影的详情页,有更丰富的数据,比如电影的导演、主演、评分人数、影评条数等。
比如最近最热门的电影《姜子牙》的豆瓣详情页:
如何能批量抓取每一部电影详情页中的这些数据呢?下面就来看看操作步骤。
1、批量获取电影的详情页网址。
要想获得详情页的数据,首先就需要先得到每部电影的详情页网址,批量获取网址的方法,之前也介绍过(参考:Power BI如何获取网页中的链接?这个方法非常好用)。
先打开前两部电影的详情页并将网址复制下来,然后利用"使用示例添加表"的功能,将前两行数据粘贴到前两行,系统就可以自动识别并补全剩余的信息。
或许是豆瓣电影网页的数据结构不够规范,所以提取出来的数据,与网站实际看到的略有出入,将重复的、以及不正确的数据删除即可。
2、提取某一部电影详情页需要的数据。
选择某一个电影,进入详情页,比如提取出《姜子牙》的导演、主演、评分人数等数据,依然"使用示例添加表",将这些数据提取成一行,
然后将这一行数据清洗成规范的数据。
3、利用第2步的查询建立自定义函数。
右键该查询>创建函数,
命名为movieinfo,并修改前两行代码,定义网址为参数:
自定义函数制作完成。
4、调用自定义函数。
在第1步查询的基础上,调用创建好的自定义函数:
然后展开数据即可获得每一部电影的详细数据:
将抓取到的数据上载到数据模型中就可以进行分析了,
不得不说,之前备受瞩目的《花木兰》评分真的好低,不推荐观看。
以上就是PowerBI批量抓取链接网页中数据的步骤,具体细节,可能不同的网站需要不同的处理,但整体思路基本如此。
领取专属 10元无门槛券
私享最新 技术干货