前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[案例]网易云音乐的个性化推荐

[案例]网易云音乐的个性化推荐

作者头像
大数据文摘
发布于 2018-05-24 02:48:11
发布于 2018-05-24 02:48:11
2K0
举报
文章被收录于专栏:大数据文摘大数据文摘

作者授权转载 作者:宿痕 来源:知乎 链接:http://zhuanlan.zhihu.com/dataman/20510761

用过虾米、酷狗、QQ音乐、网易云音乐,个人感受网易云音乐在音乐推荐这块做的真心不错,特别是以“人”为角度的推荐,没有像虾米、酷狗推的那么乱。虾米还可以,但更多的是以歌搜歌的形式。刚注册了一个新的账号,避免有历史数据的干扰,听了一首周杰伦的《一路向北》和陈奕迅的《淘汰》,然后去个性化推荐里看到了蔡健雅的《红色高跟鞋》和曲婉婷的《承认》,给我的感觉还是比较惊喜,像蔡健雅一般听的人比较少,还能推荐到体验不错。当然也有很多不一定特别准,当然听歌这东西就不需要完全准确。

网易云音乐关于个性化推荐这块在公司外部介绍的比较少,但应该推荐的算法和机制和大部分的音乐素材的公司做的类似。以item为核心的协同过滤(CF),通过打分机制来推荐最适合的歌曲。

印象中早期网易云音乐还可以将自己听的歌曲分享到微信朋友圈等,通过跳转关联到的账户ID识别出朋友关系。这个想法的确很赞,包括我第一次听《一路向北》的时候也是一个朋友推荐给我的,这首歌不仅是个人喜欢的风格,再加上有朋友推荐所以留下很好的印象。但是很可惜,那个时候朋友圈不能分享。微博还可以分享,只是现在微博的数据很多水分。

现在主流的方式都是人工+智能推荐,人工的方式就不过多介绍,费时费力。出不了几张有限的专辑。现在主流都是通过机器学习的方式,通过同类人类的偏好给相似的人群推荐他们都喜欢的歌曲。也有根据以歌的item推荐相似的歌曲,但体验就是听来听去就是那个风格,很快就乏味了。

算法部分:

◆ ◆ ◆

1.相似人群的推荐

有3首歌放在那里,《最炫民族风》,《晴天》,《Hero》。 A君,收藏了《最炫民族风》,而遇到《晴天》,《Hero》则总是跳过; B君,经常单曲循环《最炫民族风》,《晴天》会播放完,《Hero》则拉黑了 C君,拉黑了《最炫民族风》,而《晴天》《Hero》都收藏了。 我们都看出来了,A,B二位品味接近,C和他们很不一样。 那么问题来了,说A,B相似,到底有多相似,如何量化? 我们把三首歌想象成三维空间的三个维度,《最炫民族风》是x轴,《晴天》是y轴,《Hero》是z轴,对每首歌的喜欢程度即该维度上的坐标, 并且对喜欢程度做量化(比如: 单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-1 , 拉黑=-5 )。 那么每个人的总体口味就是一个向量,A君是 (3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。 (抱歉我不会画立体图) 我们可以用向量夹角的余弦值来表示两个向量的相似程度, 0度角(表示两人完全一致)的余弦是1, 180%角(表示两人截然相反)的余弦是-1。 根据余弦公式, 夹角余弦 = 向量点积/ (向量长度的叉积) = ( x1x2 + y1y2 + z1z2) / ( 跟号(x1平方+y1平方+z1平方 ) x 跟号(x2平方+y2平方+z2平方 ) ) 可见 A君B君夹角的余弦是0.81 , A君C君夹角的余弦是 -0.97 ,公式诚不欺我也。 以上是三维(三首歌)的情况,如法炮制N维N首歌的情况都是一样的。 假设我们选取一百首种子歌曲,算出了各君之间的相似值,那么当我们发现A君还喜欢听的《小苹果》B君居然没听过,相信大家都知道该怎么和B君推荐了吧。 第一类以人为本推荐算法的好处我想已经很清楚了,那就是精准! 代价是运算量很大,而且对于新来的人(听得少,动作少),也不太好使, 所以人们又发明了第二类算法。 假设我们对新来的D君,只知道她喜欢最炫民族风,那么问题来了,给她推荐啥好咯?

如图,推荐《晴天》!

这里我想给大家介绍另外一种推荐系统,这种算法叫做潜在因子(Latent Factor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的 @邰原朗 所介绍的算法误差(RMSE)会小不少,效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。

这种算法的思想是这样:每个用户(user)都有自己的偏好,比如A喜欢带有小清新的、吉他伴奏的、王菲等元素(latent factor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵:

一,用户-潜在因子矩阵Q,表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比如下面这样:

二,潜在因子-音乐矩阵P,表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2……

利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好*音乐A含有小清新的成分+对重口味的偏好*音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……

即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69

每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵

。(注,这里的破浪线表示的是估计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):

因此我们队张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。

如果用矩阵表示即为:

下面问题来了,这个潜在因子(latent factor)是怎么得到的呢?

由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,事实上我们能获得的数据只有用户行为数据。我们沿用 @邰原朗的量化标准:单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5,在分析时能获得的实际评分矩阵R,也就是输入矩阵大概是这个样子: 事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵

事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵

和实际的评分矩阵不要相差太多,也就是求解下面的目标函数:

这里涉及到最优化理论,在实际应用中,往往还要在后面加上2范数的罚项,然后利用梯度下降法就可以求得这P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解成为这样两个矩阵: 这两个矩阵相乘就可以得到估计的得分矩阵:

这两个矩阵相乘就可以得到估计的得分矩阵: 将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。

将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。 在这个例子里面用户7和用户8有强的相似性: 从推荐的结果来看,正好推荐的是对方评分较高的音乐:

从推荐的结果来看,正好推荐的是对方评分较高的音乐:

本质上应该都类似,都是从Amazon那条路子下来的。但是这种方式也会遇到问题:

A)冷启动的问题,在没有用户数据的情况下要推哪些歌曲,目前网易云音乐搞了个比较Q的调查问卷,还是挺有趣的。

B)同质化严重问题,怎么加入新的元素,比如热门+新歌来补充这块;

C)人群变化问题,光靠推荐很明显不代表每个个体的情况,特别是一些小众群体,数据比较稀疏。这些就需要用户自己主动搜索和添加、喜欢、下载的方式。

◆ ◆ ◆

2. 相似歌的推荐

虾米、酷狗上都是这样的歌曲漫游推荐的形式,个人不太提倡这样的方式,简单认为听过A歌的人也可能喜欢B,这个差异还是比较大的。而且还是要维护一堆歌曲的tag标签。

整体来说,网易云音乐在个性化推荐这块算法还是花了不少真功夫。看到他们在算法招聘、并发计算这些实时场景的介绍比较少,还是希望能够有机会在线下能够有这块的交流。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
网易云音乐歌单的推荐算法解析
网易云音乐的歌单推荐算法是怎样的呢?最近有很多人关心这个问题。调查了一些网易云音乐的重度患者,小咖带你来看一些路过大神的精辟分析。 分析一: “商品推荐”系统的算法( Collaborative filtering )分两大类: 第一类,以人为本,先找到与你相似的人,然后看看他们买了什么你没有买的东西。这类算法最经典的实现就是“多维空间中两个向量夹角的余弦公式”; 第二类, 以物为本直接建立各商品之间的相似度关系矩阵。这类算法中最经典是'斜率=1' (Slope One)。amazon发明了暴力简化的第二
机器学习AI算法工程
2018/03/13
2.1K0
网易云音乐歌单的推荐算法解析
让你上瘾的网易云音乐推荐算法,用Word2vec就可以实现
大数据文摘作品 作者:Ramzi Karam 编译:Chloe 朝夕 修竹 Aileen 上个周被网易云音乐的听歌报告刷屏,文摘菌这才发现,朋友圈不乏年度听歌成千上万的音乐重度患者。这群人可能中的不是音乐的毒,而是这套个性化音乐推荐算法真的太懂你。 这也又引起了一波对推荐算法的讨论。本文作者发现了一个有7亿多条歌曲的数据集,利用Word2vec,用这个训练集来训练机器学习模型,优化我们的音乐推荐结果。 中东和北非地区最大的音乐流媒体平台Anghami每个月产生7亿多条歌曲数据流。这也意味着所有这些流媒体产
大数据文摘
2018/05/24
9630
推荐算法(一)——音乐歌单智能推荐
根据文章,推荐算法的背后主要分为三个子类:基于内容的推荐、基于协同过滤的推荐以及基于模型的推荐。每种推荐方法都有其优缺点,需要根据实际需求来选择。在实际应用中,推荐系统主要利用用户行为数据来构建评分矩阵,并通过UV分解等方法将高维的评分矩阵分解为低维的隐空间向量,从而使得推荐结果更加准确。
码科智能
2018/01/03
2.7K0
推荐算法(一)——音乐歌单智能推荐
你想知道的网易云音乐推荐架构解析,都在这里!
本文选自网易云音乐推荐算法负责人-肖强前辈在全球人工智能峰会上的分享,主要介绍了三方面:关于网易云音乐,AI算法在音乐推荐中的应用和AI场景下的音乐思考。这里拿来分享给大家,并加上自己的理解,希望对大家有所帮助。
石晓文
2019/08/06
3.6K0
你想知道的网易云音乐推荐架构解析,都在这里!
这里告诉你如何用Python下载各大平台上的音乐
今天给大家推荐一个 GitHub 上的 Python 项目,可以从各大音乐平台上下载音乐歌曲到本地,支持的平台有网易云音乐、QQ音乐、酷狗音乐、百度音乐、虾米音乐,下面是项目地址:
sergiojune
2019/03/07
1.6K0
网易云音乐热评的规律,44万条数据告诉你
我们爬取了网易云音乐歌单中48400首歌的444054条热评,来看看网易云的热门评论里,有怎样的规律。
数据森麟
2019/09/27
8870
网易云音乐热评的规律,44万条数据告诉你
一言不合,我就Remix了网易云音乐500万首歌!
北半球的夏季,除了空调、西瓜和恋爱的气息,最不能少的还有一样:就是让你燥起来的音乐和旋律。《中国有嘻哈》、《中国新歌声》等一大波音乐综艺的狂轰滥炸,更是推波助澜。数据侠哈士奇说喵搜罗了网易云音乐上30万随机用户的音乐行为数据,带你从情感共鸣到理性共振。
DT数据侠
2018/08/08
8720
一言不合,我就Remix了网易云音乐500万首歌!
讲完社区故事,网易云音乐这次要靠AI上位?
虽然很少有人问,但这是一个值得思考的问题。不管提到哪个音乐APP,我们总习惯地把大版权、音乐人、歌迷品味等等内容拿出来探讨。这当然不算错,却只能算对了一半。
Alter聊科技
2023/01/12
4200
云村简史:网易云音乐八年生死时速
有人说,在中国的互联网江湖里,网易看起来是最为“佛系”的大厂,不像腾讯那样喜欢内部赛马,也少了阿里式的所谓生态优先,网易产品经理有足够的权限和耐心去打磨产品。
Alter聊科技
2023/01/13
7870
Hexo获取网易云音乐外链
Hexo获取网易云音乐外链 网易云音乐MP3外链真实地址获取方法,可用于各种背景音乐、直链播放… 一、进入网易云音乐官网 打开网易云音乐,找到喜欢的歌,复制网址的ID, 例如: image.png 地
零式的天空
2022/03/26
1.6K0
Hexo获取网易云音乐外链
Python数据可视化 | 网易云音乐年度歌曲
网易云音乐2018年度听歌报告—遇见你,真好。 相信有不少人在上周,应该已经看过自己网易云音乐的年度报告了。 小F也是去凑凑热闹,瞅了一波自己的年度听歌报告。 那么你在云村又听了多少首歌,听到最多的歌词又是什么呢? 2018年你的年度歌手又是谁,哪些又是你最爱的歌呢? 不过相比去年,我的票圈并没有很多发自己年度报告的朋友。 不得不说,版权之争开始,网易云音乐似乎就在走下坡路。 很多喜欢的歌听不了,这应该是大家共同的痛点。 最大的印象就是周董的歌,在愚人节时下架了,原以为只是个玩笑,不想却是真的。 本次通过
龙哥
2019/04/25
1.8K1
Python数据可视化 | 网易云音乐年度歌曲
iOS 开发仿网易云音乐歌词海报
从设计的角度来看,网易云音乐的界面简洁,大方,不像kugou音乐一打开就是各种广告,让人心烦。也不像QQ音乐那样动不动就各种音质,各种冲钻(不为用户需求考虑,只想赚钱,差评),最关键的是它推荐的歌真是好听,实在是太懂我了,真的是很用心的在做音乐。
HelloWorld杰少
2022/08/03
6550
iOS 开发仿网易云音乐歌词海报
44万条数据揭秘:如何成为网易云音乐评论区的网红段子手?
之前由于懒,总是评论区放个代码就草草了事,技术号们也不太好转载,以后争取《凹凸数读》的每篇文章都在这个《凹凸玩数据》里写下流程。
朱小五
2019/11/26
7570
Python3爬虫抓取网易云音乐热评实战
前一段时间刚刚入门python爬虫,有大概半个月时间没有写python了,都快遗忘了。于是准备写个简单的爬虫练练手,我觉得网易云音乐最优特色的就是其精准的歌曲推荐和独具特色的用户评论,于是写了这个抓取
小小科
2018/05/02
1.7K0
Python3爬虫抓取网易云音乐热评实战
Python分析网易云音乐近5年热门歌单
專 欄 ❈作者:瑶妹妹先生,知乎专栏:折数,关于网络编程、数据挖掘,数据可视化,摄影后期等。 ❈ 网易云音乐几乎是我唯一的听歌消遣的平台了,平时剪辑寻找BGM时也上云村。它的特点就是体验、视角效果都很棒,歌单推荐做的也很人性化。 然后,我抓取了网易云音乐热门歌单中9.8W+的歌单数据,做了些如下分析,当然在分析之前有必要解释下所谓的歌单意义,方便不太常用云音乐的朋友尽快理解以下分析的意义。歌单即:盛放歌曲的袋子。每个用户可创建歌单添加同类型的单曲进去,同时也可将别的歌单添加
Python中文社区
2018/02/01
1.7K0
Python分析网易云音乐近5年热门歌单
习惯了收听虾米酷狗网易云音乐的你,好歹知道一下音乐推荐到底是咋回事吧
翻译 | reason_ W编辑 | suiling 营长按: 不好意思,被标题党了吧 其实,我们全篇讲的是坐音乐推荐的始祖Spotify的音乐推荐系统。 搞懂了这货的算法,还有啥是你不知道的。 不说废话了,赶紧上编译的正文吧。 每个周一,数亿的Spotify用户会在Spotify上看到一个全新的音乐推荐列表,这是一个包含了30首歌曲的自定义混音专辑,被称为“Discover Weekly(每周发现)”,这里边的音乐都是你未曾听过的,但基本上都是你喜欢的。 我是Spotify的忠实粉丝,尤其是“每周
AI科技大本营
2018/04/26
1.8K0
习惯了收听虾米酷狗网易云音乐的你,好歹知道一下音乐推荐到底是咋回事吧
如何用Python网络爬虫爬取网易云音乐歌曲
前几天,小编带大家利用Python网络爬虫抓取网易云音乐歌词,没来得及上车的小伙伴请戳这篇文章——利用Python网络爬虫抓取网易云音乐歌词。今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地。
前端皮皮
2020/11/26
1.2K0
如何用Python网络爬虫爬取网易云音乐歌曲
解锁网易云音乐,这个项目牛了~~
相信应该有很多朋友和小妹一样,听歌喜欢用网易云音乐,但是由于各种各样的限制,相信很多人在听歌的时候也注意到了,经常会有喜欢的歌曲下架变成灰色,无法播放如下图所示:
永恒君
2022/12/06
5K0
解锁网易云音乐,这个项目牛了~~
某坤学学吴亦凡,Python可视化分析「大碗宽面」b站弹幕和网易云音乐评论
上周五也就是 4 月 19 号吴亦凡官方发布了一首歌:大碗宽面,这首歌的官方版 MV 也同步发布在 b 站上了,初听感觉这首歌和普通歌也没什么区别,其实这首歌是吴亦凡对自己的一种自黑的梗。原梗是两年前的一个综艺节目上,吴亦凡表演了即兴的freestyle,我们先来看看原梗的视频。
小小詹同学
2019/05/07
7030
某坤学学吴亦凡,Python可视化分析「大碗宽面」b站弹幕和网易云音乐评论
Python 获取网易云音乐热门评论
来源:lyrichu www.cnblogs.com/lyrichu/p/6635798.html 最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本吧。获取文本的方式有很多,比如从网上下载现成的文本文档,或者通过第三方提供的API进行获取数据。但是有的时候我们想要的数据并不能直接获取,因为并不提供直接的下载渠道或者API供我们获取数据。那么这个时候该怎么办呢?有一种比较好的办法是通过网络爬虫,即编写计算机程序伪装成用户去获得想要的数据。利用计算机的高效,我们可以轻松快速
顶级程序员
2018/05/03
1.3K0
Python 获取网易云音乐热门评论
推荐阅读
相关推荐
网易云音乐歌单的推荐算法解析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档