本文结合Netflix的个性化推荐案例,继续谈《人工智能设计师》的应用。
Netflix,让每个用户都看到不一样的电影海报
这家视频网站在最近宣布了他们利用情境bandits推荐算法,实现了视频配图的个性化处理的方案,是一个典型人工智能设计师应用的场景,关于个性化推荐+人工智能设计师,这个方向在我前阵子的文章里有讨论过。
1
Netflix的实现方法
Netflix的产品超过一亿种,为每个用户提供个性化推荐和个性化的视觉效果是其业务增长的关键技术。
基本方法是什么?
用一张对用户有足够的吸引力的配图,吸引用户点开视频。
使用哪些图片呢?
比如用户熟悉的演员、让人热血沸腾的汽车竞速场景,或者一部电影/电视节目中的代表性的场景等。
如何为所有会员的视频匹配最合适的图片?
Netflix通过多臂老虎机算法(multi-armed bandits),为视频找到最合适的配图,以《怪奇物语》为例,基于用户的品味和偏好,找到每个用户偏好的点,在配图中能呈现出他们最感兴趣的东西,激发他们点击的热情,如下图所示。
2
基于演员的个性化推荐例子
根据每个用户对不同类型和主题的视频内容的偏好,把该类型/主题对应的演员作为配图主体。
例如Netflix为电影《心灵捕手》设计的个性化配图:
对于看过许多浪漫爱情(类型/主题)电影的人,如果他的推荐图片中包含马特·达蒙(Matt Damon)和米妮·司各德(Minnie Driver)的信息,可能他会对《心灵捕手》感兴趣,而如果是对于看过很多喜剧片的用户,我们在推荐图中包含知名喜剧演员罗宾·威廉斯(Robin Williams)的信息,吸引他的几率可能更大。
基于用户喜欢的演员来配图,来吸引用户点击观看影片:
3
核心算法
多臂老虎机算法可以当作一种特殊的强化学习问题,没有状态(state),只需要采取行动(action)并获取最大的奖励(reward)即可。
把个性化推荐系统看作智能体(Agent)、把用户看做环境(Environment),则个性化匹配的问题可以被视为典型的顺序决策问题。Agent每一次排序策略的选择可以看成一次试错(Trial-and-Error),把用户的反馈(点赞、收藏、评论等),点击观看视频等作为从环境获得的奖赏。在这种反复不断地试错过程中,Agent将逐步学习到最优的排序策略,最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习,正是强化学习(Reinforcement Learning,RL)的根本思想。
多臂老虎机算法来源于人民群众喜闻乐见的赌博学:
一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么想最大化收益该怎么操作呢?这就是多臂老虎机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
多臂老虎机的应用,远不止于以下这些方面:
1. 一个用户对不同类别的内容感兴趣程度不同,那么推荐系统初次接触这个用户的时候,如何迅速知道该用户对每类内容的感兴趣程度?这就是推荐系统冷启动要解决的问题。
2. 假设我们有若干广告库存,怎么知道该给每个用户展示哪个广告,从而获得最大的点击收益?如果每次都挑效果最好那个广告进行投放,那么新广告将没有机会被投放给用户;
3. 我们的线上产品又出了新的功能,有没有比A/B test更快的方法知道它和旧功能相比谁更受用户喜欢?
4. 一个风投,需要把收益最大化,他长期会面临一个两难:何时去投资那些已经成功的公司,何时去投资那些还没有成功但具有很大潜力的公司。
5.……
4
如何构建这么一套系统?
数据采集与处理
+
知识图谱
+
图像池
+
多臂老虎机算法
+
人工智能设计师
爬取/采集大量的影视作品信息,处理成类型/主题/场景/演员/图片的数据集;
建立不同类型/主题的视频与演员之间的知识图谱;
建立不同类型/主题的视频与场景之间的知识图谱;
为每个视频提供优质的图像池作品库;
多臂老虎机算法决定推送给用户的内容;
人工智能设计师负责制作一副吸引用户眼球的海报(配图);
以上为简短的案例介绍跟思考,有兴趣可以继续深挖,自己实现一个电影封面海报个性化推荐系统。
领取专属 10元无门槛券
私享最新 技术干货