首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

利用Power BI批量获取豆瓣电影数据

2020年的电影市场沉寂了大半年,随着国庆档几部影片的上映,差不多恢复到了往年的热度,不过打算看哪部电影不能仅看是否热门,更靠谱的是参考电影评分,更准确的说,是看豆瓣的评分。

这篇文章就来看看如何用PowerBI批量抓取豆瓣电影的数据。以最近正在上映的电影为例,豆瓣网址为:

https://movie.douban.com/

利用从web获取数据的功能,将这个网址放进去,就可以轻松获取这些影片的评分:

这种方式抓取的只有一个评分数据,其实在每部电影的详情页,有更丰富的数据,比如电影的导演、主演、评分人数、影评条数等。

比如最近最热门的电影《姜子牙》的豆瓣详情页:

如何能批量抓取每一部电影详情页中的这些数据呢?下面就来看看操作步骤。

1、批量获取电影的详情页网址。

要想获得详情页的数据,首先就需要先得到每部电影的详情页网址,批量获取网址的方法,之前也介绍过(参考:Power BI如何获取网页中的链接?这个方法非常好用)。

先打开前两部电影的详情页并将网址复制下来,然后利用"使用示例添加表"的功能,将前两行数据粘贴到前两行,系统就可以自动识别并补全剩余的信息。

或许是豆瓣电影网页的数据结构不够规范,所以提取出来的数据,与网站实际看到的略有出入,将重复的、以及不正确的数据删除即可。

2、提取某一部电影详情页需要的数据。

选择某一个电影,进入详情页,比如提取出《姜子牙》的导演、主演、评分人数等数据,依然"使用示例添加表",将这些数据提取成一行,

然后将这一行数据清洗成规范的数据。

3、利用第2步的查询建立自定义函数。

右键该查询>创建函数,

命名为movieinfo,并修改前两行代码,定义网址为参数:

自定义函数制作完成。

4、调用自定义函数。

在第1步查询的基础上,调用创建好的自定义函数:

然后展开数据即可获得每一部电影的详细数据:

将抓取到的数据上载到数据模型中就可以进行分析了,

不得不说,之前备受瞩目的《花木兰》评分真的好低,不推荐观看。

以上就是PowerBI批量抓取链接网页中数据的步骤,具体细节,可能不同的网站需要不同的处理,但整体思路基本如此。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201005A03Z6100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券