Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从YouTube算法论文反推其推荐机制

从YouTube算法论文反推其推荐机制

作者头像
用户1737318
发布于 2018-06-05 07:57:11
发布于 2018-06-05 07:57:11
1.1K0
举报
文章被收录于专栏:人工智能头条人工智能头条

作者 | Matt Gielen

编译 | 聂震坤

去年,在波士顿举办的第10届ACM推荐系统大会(ACM’s RecSys ‘16)上,来自Google的一个研究团队公布了YouTube推荐系统的深度学习论文:Deep Neural Networks for YouTube Recommendations

论文作者是Google的软件工程师 Jay Adams 与高级软件工程师 Paul Covington、Embre Sargin,他们向业界展示了YouTube在机器学习推荐算法上的深度神经网络使用情况。该论文涉及到一些非常技术、非常高级的细节,但它最大的意义是为我们完整描绘了YouTube推荐算法的工作原理!!该论文细致、审慎地描述了YouTube检索、筛选并推荐视频时的大量细节。

算法论文的UP主解析

YouTube工程师发布在ACM上的算法论文,目标受众显然不是我们这些UP主。但为了流量,阅读并理解该算法的内容,并让它来为我们UP主们服务就显得义不容辞了。接下来就看我们如何从UP主的角度来解析这篇算法论文。

在论文公布之前,我们上一篇分析YouTube算法的文章(点击阅读原文查看:《想让视频网站乖乖帮你推内容?看看这位小哥是如何跟YouTube斗法的》),关注的主要是观看时长这一个因素,因为我们只能从自己上传的视频数据中来反推YouTube算法的工作原理,这肯定要受限于我们视频的内容和受众。我们之所以了解YouTube的算法,是因为我们解决了一下做视频路上碰到的这个问题:“为什么我们的视频就能这么成功呢?”为此,我们尽最大努力来分析已有的信息,但最初的结果并不理想。尽管我100%支持我们的结论,但我们先前的方法存在两大问题:

  • 仅用频道指标的一部分来做反推,意味着我们在数据上存在巨大的盲点,毕竟我们无法访问竞争性指标、会话指标与点击率。
  • 对于那些基于UP主的指标,YouTube算法所给的权重非常小。它更关心的是观众以及单个视频的指标。换句话说,该算法并不关心你所上传的视频,而是关心你和其他人正在看的视频。

但在我们写最初那篇文章的时候,YouTube或Google数年来都没公布过有关该算法的任何信息。所以,我们只有自己动手。有了Google新近公布的这篇论文,我们就可以一窥它推荐机制的究竟,并找出其中的重要指标。希望这能回答一个让我们更为辛酸的问题,“为什么有些视频能取得成功?”

深度学习是个无底洞

论文简介部分最大的亮点是YouTube确实在用深度学习来驱动推荐算法。这种做法不新鲜,但此次确认证实了大家此前的猜测。作者在论文开头是这样说的:

在本论文中,我们将集中介绍深度学习对YouTube视频推荐系统的全面影响……跟Google其他领域的产品一样,YouTube同样经历了用深度学习来解决所有通用学习问题的根本性范式转变。

这就意味着,今后人工调整算法、人工权衡这些调整并将其部署上世界最大的视频分享网站的机会将越来越少。而是由算法实时来读取数据、为视频排名,然后基于这些排名来推荐视频。所以,当YouTube表示他们不知道算法为什么那样做时,有可能他们确实不知道。

两大神经网络

该论文以算法的基本架构作为开篇,下面是作者的图示:

本质上这就是两个大的过滤器,各自有着不同的输入。作者写道:

该系统由两大神经网络组成,一个用于生成候选视频,一个用来对其排名。

这两个过滤器及其输入内容,基本上决定了用户在YouTubes上能看到的每一个视频:建议你播放的下一个、推荐给你的视频列表、你所浏览的视频列表……

第一个过滤器是候选生成器。论文中解释,候选是基于用户的YouTube活动记录产生的,也就是用户的观看历史与观看时长。候选生成器还会考虑相似用户的浏览记录,这一点被称为协同过滤。相似用户是算法通过视频ID、搜索关键词及相关的用户统计信息决定出来的。

候选生成器的通过率仅为属百分之一,换言之,如果某个视频能从数百个中脱颖而出成为你的候选视频,它必定是跟你的观看记录有关,同时还有一个跟你相似的用户已经看过它。

第二个是排名过滤器。该论文对排名过滤器进行了大量的深度解析,并列j举出不少有趣的因素。作者写道,排名过滤器是这样给视频排名的:

基于描述视频和用户的丰富特征,目标期望函数会给每个视频设定分数。根据分数排名,得分最高的视频将被展示给用户。

由于观看时长是YouTube为用户设定的首要目标,我们只好假定这就是“目标期望函数”的意义。因此,考虑到各种不同的用户输入,该分数的意义就是某视频能够转化成用户观看时长的程度。但不幸的是,事情没有那么简单。根据作者透露,该算法还会考虑很多其他的因素。

我们在排名过滤器中用到了数百种特征。

如何对视频进行排名这一块的数学原理非常复杂。论文既没有详述排名过滤器所用的数百项因素,又没有提及他们是如何加权的。但它列举了其中的三大主要因素:浏览记录、搜索记录、观看人数,以及包括新鲜程度在内的其他视频元素。

每一秒钟都有大量的视频上传到YouTube。向用户推荐这些最新上传的新鲜内容,对YouTube来说极其重要。我们长期观察的结果是,用户喜欢新鲜的内容,即便有些内容跟他的关联程度并不大。

论文中提到的比较有趣的一点,是算法并不总会受用户所看的上一个视频的影响,除非你的观看记录极其有限。

我们会优先使用用户的随机观看和关键词搜索记录,然后才会考虑上一个观看视频的数据。

在论文后面讨论视频封面图和标题的时候,他们提到了点击率的问题:

举例来说,用户有很大的几率来观看系统推荐的视频,但不太可能基于封面图的选择而去点击其主页……我们最终的排名会根据实时A/B测试的结果不断调整,它大体上就是一个用于预测用户观看时长的简单函数。

在这里提出点击率的问题其实并未出乎预料。为了能生成更多观看时间,一个视频必须先让人看到才成,其中最好的办法就是做出一个很赞的缩略图并相出一个很赞的标题。这让很多UP主都认为点击率对于视频在算法中的排名极其重要。

但YouTube知道点击率是可以人为刷上去的,所以他们也给出了应对之策。他们在论文中是这么承认的:

通过点击率进行排名往往会变相鼓励诱导性的视频内容,用户即便点进去也很少看完视频,因而观看时长能更反映出视频的好坏。

起码这一机制还算鼓舞人心(译注:对比一下国内某些网站的内容生产机制),作者接下来写到:

如果用户并未观看最近推荐的视频,页面下一次加载时模型就会自动降低该视频的排名。

这就说明,如果用户没有点击特定的视频,该算法就不再将其推荐给相似的用户。频道推荐的情况也一样,论文中的证据如下:

我们观察到的最为重要的信号是用来描述用户此前跟某个视频及其他相似视频的交互的……举例来说,考虑一下用户跟某个频道已经被算法打分过的视频的交互记录:该频道有多少视频被该用户看过?该用户观看同类话题的上一个视频是在什么时间?此类描述用户过往活动的数据特别强大……

此外,该论文还指出,算法在训练时考虑了YouTube视频所有的观看方式,包括那些推荐算法触及不到的地方:

训练数据生成自所有观看方式的YouTube视频(包括内嵌在其他网页中的那些),而非仅用我们自己所生成推荐视频。否则,新内容将很难登上推荐榜单,而推荐系统又将过于依赖过往视频的数据。如果用户通过内容查找到的视频不同于我们的推荐,我们就需要能迅速通过推荐系统把该发现传播给其他用户。

最终,这一切又回到了算法所用的观看时间。正如我们在论文开头所看到的,该算法在设计之初就是一个”目标期望函数“,作者总结”我们的目标就是为了预测用户的观看时长“,”我们最终的排名会根据实时A/B测试的结果不断调整,它大体上就是一个用于预测用户观看时长的简单函数。“

这也再一次说明了视频观看时间之于算法的重要性,该算法的目的就是为了YouTube网站上能有更多、更长的视频以及更多、更长的用户观看时间。

一个简单的回顾

讲了这么多,让我们简单回顾一下:

  • YouTube使用三个主要的观看因素来推荐视频,它们是用户的观看历史、搜索记录以及相关的用户统计信息。
  • 推荐视频是通过候选生成器与排名过滤器的筛选出来的,这两大过滤器决定了YouTube如何读取、筛选视频,如何生成推荐列表。
  • 排名过滤器主要是基于用户输入的因素,其他因素还包括视频的”新鲜程度“和点击率。
  • 推荐算法的设计初衷是持续增加用户在YouTube网站的观看时长,其方法是持续把视频A/B测试的实时结果不断反馈给神经网络,从而使YouTube能不断为用户推荐它大体上就是一个用于预测用户观看时长的简单函数。

如果你还不明白,咱们就再举一个例子

我们用一个实例来说明这个推荐系统具体是如何运作的:

比如说,小明很喜欢YouTube,他有YouTube账号相关的一切。每天浏览YouTube时,他都会在浏览器登录。一旦登录,YouTube便给小明此次浏览的内容创建三个token:浏览记录、搜索记录以及关于他的统计信息。小明可能压根就不知道这三种数据的存在。

然后轮到候选生成器上场了。YouTube拿这三个token的值跟观看记录类似于小明的用户进行对比,由此筛选出小明可能会喜欢的数百个视频,过滤掉YouTube视频库中数以百万计的其他内容。

接下来,基于视频和小明的相关性,这些视频被排名算法排序。排序时该算法会考虑这样一些问题:小明有多大的可能会打开这个视频?这个视频有没有可能让小明在YouTube上打发更多时间?这个视频的新鲜程度如何?小明最近在YouTube上的活动程度如何?还有数百个其他的问题。

经过YouTube算法的读取、筛选和推荐后,排名最高的视频将被推荐给小明。之后小明看与不看的选择数据都会反馈给神经网络,以供算法后续使用。视频被点开,并吸引小明在YouTube上打发更多时间的目标,则一直持续下去。那些小明没有点开的推荐视频,等他下次登录网站时则有可能通不过候选生成器。

总结

Deep Neural Networks for YouTube Recommendations这篇论文读起来很棒,它第一次让人从源头直击YouTube推荐算法的内幕!!我们希望能接触到更多的论文,以便在为这个平台制作内容的时候能做出更好的选择。这也是愿意花时间来写这些内容的根本原因。毕竟,更适合该平台的内容就意味着更多的浏览量、更高的收入,从而让我们能有更多的资源来为数以十亿计的用户制作出品质更高、更有吸引力的内容。

原文:http://www.tubefilter.com/2017/02/16/youtube-algorithm-reverse-engineering-part-ii/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
谷歌Youtube推荐系统及其深度学习技术应用初窥 | 附算法全文下载 | 解读产品
推荐系统将成为 Deep Learning 最重要的应用领域之一。落地场景主要在各个行业的精准营销场景,如电商产品推荐、电影音乐推荐、房屋推荐等。本质上解决的是各种信息过载背景下,个人定制化信息需求的有效满足问题,最高级的推荐不是找到你知道的需求(母爱式),而是让你发现自己不知道的喜好(父爱式),进一步拓展你的认知。
用户7623498
2020/08/04
1.6K0
谷歌Youtube推荐系统及其深度学习技术应用初窥 | 附算法全文下载 | 解读产品
推荐系列(七):召回器,排序器,重排及总结
一旦获得了查询嵌入q ,只需要在嵌入空间搜索距离接近的项目——这是最近邻问题(nearest neighbor problem)。例如,可以根据相似度得分返回前k个项目。
用户3578099
2019/08/21
1.9K0
推荐系列(七):召回器,排序器,重排及总结
Youtube视频推荐算法的前世今生
在这个阶段,YouTube认为应该给用户推荐曾经观看过视频的同类视频,或者说拥有同一标签的视频。然而此时,YouTube的视频已是数千万量级,拥有标签的部分却非常小,所以如何有效的扩大视频标签,被其认为是推荐的核心问题。解决方案的核心有两块,一是基于用户共同观看记录构建的图结构(Video Co-View Graph); 二是基于此数据结构的算法,被称为吸附算法(Adsorption Algorithm)。
week
2018/08/24
2.4K0
Youtube视频推荐算法的前世今生
Youtube 短视频推荐系统变迁:从机器学习到深度学习
本文介绍了YouTube推荐算法从2008年到2016年的变迁,从基本的协同过滤到基于内容的推荐,再到混合推荐,最后到基于深度学习的内容推荐。作者通过对比实验,展示了深度学习模型在推荐效果上的优势。同时,文章也介绍了YouTube在推荐系统方面的技术架构和实现方法。
DevOps时代
2017/07/11
6.3K1
Youtube 短视频推荐系统变迁:从机器学习到深度学习
用DNN构建推荐系统-Deep Neural Networks for YouTube Recommendations论文精读
虽然国内必须翻墙才能登录YouTube,但想必大家都知道这个网站。基本上算是世界范围内视频领域的最大的网站了,坐拥10亿量级的用户,网站内的视频推荐自然是一个非常重要的功能。本文就focus在YouTube视频推荐的DNN算法,文中不但详细介绍了Youtube推荐算法和架构细节,还给了不少practical lessons and insights,很值得精读一番。下图便是YouTube APP视频推荐的一个例子。
CreateAMind
2018/07/24
2.4K0
用DNN构建推荐系统-Deep Neural Networks for YouTube Recommendations论文精读
Youtube 短视频推荐系统变迁:从机器学习到深度学习
Youtube是全球最大的视频分享平台,用户量高达10亿+,每天上传的UGC和PGC都是百万级别。那么问题就来了,他们是如何让用户在这么多的视频中快速的发现自己感兴趣的内容呢?大家可能会想到搜索,确实搜索是一个必不可少的工具,但有一个前提条件是用户必须知道视频的关键词,通过搜索关键词才能找到对应的视频,并且用户很多时候其实并不是很知道自己需要什么样的内容,逛youtube纯粹为了打发时间。为了很好的解决用户快速发现可能感兴趣的视频这个问题,推荐系统绝对是搜索的一个很好的补充。
用户2385340
2018/06/20
1.1K0
【技术分享】 Youtube 短视频推荐系统变迁:从机器学习到深度学习
Youtube是全球最大的视频分享平台,用户量高达10亿+,每天上传的UGC和PGC都是百万级别。那么问题就来了,他们是如何让用户在这么多的视频中快速的发现自己感兴趣的内容呢?大家可能会想到搜索,确实搜索是一个必不可少的工具,但有一个前提条件是用户必须知道视频的关键词,通过搜索关键词才能找到对应的视频,并且用户很多时候其实并不是很知道自己需要什么样的内容,逛youtube纯粹为了打发时间。为了很好的解决用户快速发现可能感兴趣的视频这个问题,推荐系统绝对是搜索的一个很好的补充。
腾讯云TI平台
2019/08/14
1.3K0
谷歌YouTube推荐系统的深度神经网络应用 | 3分钟读论文
YouTube使用了一种当今世界最大规模、最复杂的产品级推荐系统。本文从一个比较高的视角对系统进行了描述,并聚焦于深度学习带来的性能跨越式提升。本文按照信息检索的二分法按照两个经典阶段进行介绍:首先详细描述深度候选生成模型,然后描述一个独立的深度排序模型。我们还介绍了设计、迭代和维护一个面向庞大用户量的巨型推荐系统的实践经验和洞见。
用户7623498
2020/08/04
4440
谷歌YouTube推荐系统的深度神经网络应用 | 3分钟读论文
详细解读Youtube推荐算法
(https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf),
机器学习AI算法工程
2019/10/29
1.1K0
详细解读Youtube推荐算法
技术干货 | 细说YouTube推荐系统的变迁
作者简介 郝俊禹:达观数据高级工程师,曾获美国大学生数学建模竞赛二等奖,目前参与达观数据推荐系统研发,负责酷6,wifi万能钥匙和视频看看等项目。 众所周知,YouTube是世界上最大的视频网站,网站
达观数据
2018/03/30
2K0
技术干货 | 细说YouTube推荐系统的变迁
可怕!YouTube算法如何让小孩沉迷到不可自拔……
翻译 | AI科技大本营(rgznai100) 参与 | 史天,胡永波 每个人小时候都渴望拥有力量。可这对于蹒跚学步的孩子们来说,太不现实了,毕竟他们什么力量都没有。因此,他们总要乱发脾气、无理取闹。(不,我要的是这个香蕉,不是那个……它们看起来是一样,但你刚刚剥皮的那个我就是不要。) 他们只是想要自己做主!这种渴望自主的倾向,揭示了孩子们很多无理行为背后的动机。这种倾向同样也能用来解释YouTube视频在学龄前儿童中的受欢迎程度,一些发展心理学这样表示。 如果你没养过3岁大的小孩,你可能都不知道Yo
AI科技大本营
2018/04/27
1.6K2
可怕!YouTube算法如何让小孩沉迷到不可自拔……
论文阅读——YouTube推荐中的深层神经网络
这篇文章是阅读YouTube的《Deep Neural Networks for YouTube Recommendations》后的一点总结,这篇文章值得详细阅读,因此将其中的核心点整理出来。
felixzhao
2018/03/19
9540
论文阅读——YouTube推荐中的深层神经网络
推荐系统遇上深度学习(三十四)--YouTube深度学习推荐系统
看题目,相信大家都知道本文要介绍的便是经典的Youtube的深度学习推荐系统论文《Deep Neural Networks for YouTube Recommendations》,如果你之前已经读过该文章,那我们一起来回顾讨论一下;如果你没有读过这个文章,希望本文能够起到导读的作用,能够帮助你更好的理解文章!
石晓文
2019/05/05
1.3K0
推荐系统遇上深度学习(三十四)--YouTube深度学习推荐系统
达观数据中国电信分享实录:推荐技术介绍
导读:3月下旬,中国电信大数据技术团队邀请达观数据技术团队前去进行技术交流和互相学习。达观数据联合创始人文辉就“视频推荐技术”进行了详细的讲解,主要从达观推荐系统开发的概况、推荐系统的架构模块和达观推
达观数据
2018/03/30
8410
深度学习在推荐系统中的应用
2016年DeepMind开发的AlphaGo在围棋对决中战胜了韩国九段选手李世石,一时成为轰动全球的重大新闻,被全球多家媒体大肆报道。AlphaGo之所以取得这么大的成功,这其中最重要的技术之一是深度学习技术。经过这几年的发展,深度学习技术已经在图像分类、语音识别、自然语言处理等领域取得突破性进展,甚至在某些方面(如图像分类等)超越了人类专家的水平。深度学习技术驱动了第三次人工智能浪潮的到来。
kbsc13
2019/10/21
1.3K0
深度学习在推荐系统中的应用
深入理解推荐系统:排序
最近正好在做KDD Cup:Debiasing赛道,不同于其它类型的比赛,推荐系统中的排序建模需要大家自己构建正负样本。本文也将作为方法梳理,希望能帮助到大家。
Coggle数据科学
2020/05/09
1.9K0
深入理解推荐系统:排序
多模型融合推荐算法在达观数据的运用
多模型融合推荐算法在达观数据的运用 研发背景 互联网时代也是信息爆炸的时代,内容太多,而用户的时间太少,如何选择成了难题。电商平台里的商品、媒体网站里的新闻、小说网站里的作品、招聘网站里的职位……当数量超过用户可以遍历的上限时,用户就无所适从了。 对海量信息进行筛选、过滤,将用户最关注最感兴趣的信息展现在用户面前,能大大增加这些内容的转化率,对各类应用系统都有非常巨大的价值。 搜索引擎的出现在一定程度上解决了信息筛选问题,但还远远不够,其存在的两个主要弊端是:第一搜索引擎需要用户主动提供关键词来对海量信息进
达观数据
2018/03/30
1.6K0
多模型融合推荐算法在达观数据的运用
推荐系统机器学习算法概览
来源:Medium 编译:weakish 编者按:Statsbot数据科学家Daniil Korbut简明扼要地介绍了用于推荐系统的主流机器学习算法:协同过滤、矩阵分解、聚类、深度学习。 现在有许多公司使用大数据来制定高度相关的建议以提高收入。数据科学家需要根据业务的限制和需求,在各种推荐算法中选择最好的算法。 为了简化这一任务,Statsbot团队准备了一份现有主要推荐系统算法的概览。 协同过滤 协同过滤(collaborative filtering, CF)及其改版是最常用的推荐算法之一。 即使是数据
企鹅号小编
2018/03/02
1.7K0
推荐系统机器学习算法概览
达观数据:推荐系统评测标准制定经验分享
推荐系统是互联网发展至今最常见也重要的技术之一。如今各类APP、网站、小程序等所有提供内容的地方,背后都有推荐系统在发挥作用。
达观数据
2020/04/01
9470
嫌弃YouTube推荐算法,这位小哥决定自己动手写代码来推荐视频
喜欢在YouTube上看视频的朋友也许会有一个苦恼:YouTube的算法会推荐一些“垃圾”视频,或者“标题党”链接。
AI科技评论
2020/12/08
1.8K0
嫌弃YouTube推荐算法,这位小哥决定自己动手写代码来推荐视频
推荐阅读
相关推荐
谷歌Youtube推荐系统及其深度学习技术应用初窥 | 附算法全文下载 | 解读产品
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档