前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文阅读11-----基于强化学习的推荐系统

论文阅读11-----基于强化学习的推荐系统

原创
作者头像
邵维奇
修改于 2021-01-20 02:33:29
修改于 2021-01-20 02:33:29
7050
举报

Large-Scale Interactive RecommendationwithTree-Structured Policy Gradient

Abstract Reinforcement learning (RL) has recently been introduced to interactive recommender systems (IRS) because of its nature of learning from dynamic interactions and planning for longrun performance.

RL可以被用于IRS因为它动态的特性以及为长期行为的打算。

As IRS is always with thousands of items to recommend (i.e., thousands of actions), most existing RLbased methods, however, fail to handle such a large discrete action space problem and thus become inefficient. The existing work that tries to deal with the large discrete action space problem by utilizing the deep deterministic policy gradient framework suffers from the inconsistency between the continuous action representation (the output of the actor network) and the real discrete action.

需要推荐的东西比较多,为了能够把RL用于推荐系统我们常常采用DDPG格式,但是DDPG格式会出现真是action和outpput出来的action之间的差异(一般采用cos similarity或是欧氏距离最近)

To avoid such inconsistency and achieve high efficiency and recommendation effectiveness, in this paper,

我们解决两者之间的不连贯性以及提高了它的效率。

we propose a Tree-structured Policy Gradient Recommendation (TPGR) framework, where a balanced hierarchical clustering tree is built over the items and picking an item is formulated as seeking a path from the root to a certain leaf of the tree.

就是我们采用了层次化的聚集树,所白了一层一层从上往下走,最后的叶子结点为action,每一层形成一个policy gradient选择下一层直到最后一个。

Extensive experiments on carefully-designed environments based on two real-world datasets demonstrate that our model provides superior recommendation performance and significant efficiency improvement over state-of-the-art methods.

实验证明我们很厉害。

我们先来看一下模型图

从上往下,一层一层的选择直到最后一个,从上而下的选择可以形成一个序号(1,2,4,8)如图选择的那个点的标号就是(1,2,4,8)代表item8。基本上这个模型的理念就是这样的,这样形成的一个向量就可以用于计算
从上往下,一层一层的选择直到最后一个,从上而下的选择可以形成一个序号(1,2,4,8)如图选择的那个点的标号就是(1,2,4,8)代表item8。基本上这个模型的理念就是这样的,这样形成的一个向量就可以用于计算
state的表现形式
state的表现形式
总之想法还比较独特,通过一层一层的分解减少了action space还是比较6的
总之想法还比较独特,通过一层一层的分解减少了action space还是比较6的
policy gradient个数
policy gradient个数
上诉两图就是形成一个episode
上诉两图就是形成一个episode

好了好了又想学习推荐系统科研的小可爱们,但又不知道该怎样写代码的可以可我的github主页或是由中国人民大学出品的RecBole

https://github.com/xingkongxiaxia/Sequential_Recommendation_System 基于ptyorch的当今主流推荐算法

https://github.com/xingkongxiaxia/tensorflow_recommend_system 我还有基于tensorflow的代码

https://github.com/RUCAIBox/RecBole RecBole(各种类型的,超过60种推荐算法)

欢迎大家点小星星

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
论文阅读8-----基于强化学习的推荐系统
With the recent prevalence of Reinforcement Learning (RL), there have been tremendous interests in developing RL-based recommender systems.
邵维奇
2021/01/18
1.1K1
论文阅读13-----基于强化学习的推荐系统
Applying reinforcement learning (RL) in recommender systems is attractive but costly due to the constraint of the interaction with
邵维奇
2021/01/21
1K0
论文阅读14-----强化学习在推荐系统中的应用
There are great interests as well as many challenges in applying reinforcement learning (RL) to recommendation systems. In this setting, an online user is the environment; neither the reward function nor the environment dynamics are clearly defined, making the application of RL challenging.
邵维奇
2021/01/22
9851
论文阅读9-----基于强化学习的推荐系统
With the recent advances in Reinforcement Learning (RL),there have been tremendous interests in employing RL fo recommender systems. However, directly training and evaluating a new RL-based recommendation algorithm needs to
邵维奇
2021/01/18
7120
论文阅读5-----基于强化学习的推荐系统
Recommender systems can mitigate the information overload problem by suggesting users’ personalized items. In real-world recommendations such as e-commerce, a typical interaction between the system and its users is – users are recommended a page of items and provide feedback; and then the system recommends a new page of items. To effectively capture such interaction for recommendations, we need to solve two key problems
邵维奇
2021/01/17
5350
论文阅读4-----基于强化学习的推荐系统
Recommender systems play a crucial role in mitigating the problem of information overload by suggesting users' personalized items or services. The vast majority of traditional recommender systems consider the recommendation procedure as a static process and make recommendations following a fixed strategy.
邵维奇
2021/01/16
7250
论文阅读10-----基于强化学习的互联网应用
With the recent prevalence of Reinforcement Learning (RL), there have been tremendous interests in utilizing RL fo
邵维奇
2021/01/19
4940
论文阅读2-----基于强化学习的推荐系统
特别多的状态和动作空间会造成较低的credit assignment problem and low quality reward signal.
邵维奇
2021/01/14
1K1
论文阅读7-----基于强化学习的推荐系统
In this paper, we propose a novel Deep Reinforcement Learning framework for news recommendation.
邵维奇
2021/01/18
6100
论文阅读6-----基于强化学习的推荐系统
Recommender systems play a crucial role in mitigating the problem of information overload by suggesting users’ personalized items or services.
邵维奇
2021/01/18
5671
论文阅读3-----基于强化学习的推荐系统
problems in recommendation: a complex user state space (但好在有很多隐式的数据可以使用)
邵维奇
2021/01/15
1.1K0
【论文推荐】最新5篇深度强化学习相关论文推荐—经验驱动的网络、自动数据库管理、双光技术推荐系统、UAVs、多代理竞争对手
【导读】专知内容组整理了最近强化学习相关文章,为大家进行介绍,欢迎查看! 1. Experience-driven Networking: A Deep Reinforcement Learning based Approach(经验驱动的网络:一种基于深度强化学习的方法) ---- ---- 作者:Zhiyuan Xu,Jian Tang,Jingsong Meng,Weiyi Zhang,Yanzhi Wang,Chi Harold Liu,Dejun Yang 摘要:Modern communicat
WZEARW
2018/04/13
4.5K0
【论文推荐】最新5篇深度强化学习相关论文推荐—经验驱动的网络、自动数据库管理、双光技术推荐系统、UAVs、多代理竞争对手
强化学习推荐系统的模型结构与特点总结
提到强化学习,似乎总给人一种难以训练且难以落地的感觉。但是听大佬说,企业里强化学习推荐系统(RLRS)落地的例子其实已经有不少,不过一般都没有公开细节。现有公开且知名的RLRS技术分享有:
石晓文
2021/03/24
1.2K0
强化学习推荐系统的模型结构与特点总结
【论文推荐】了解《通信强化学习》必看的6篇论文(附打包下载地址)
“SFFAI136期来自北京邮电大学的于会涵推荐的文章主要关注于深度强化学习的通信强化学习领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。”
马上科普尚尚
2022/02/24
4240
【论文推荐】了解《通信强化学习》必看的6篇论文(附打包下载地址)
从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用
【导读】本文作者根据两篇工业界背景的论文解答了 RL 在推荐场景需要解决的问题与困难,以及入门需要学习得相关知识点。
AI科技大本营
2019/09/03
3.2K1
从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用
【论文推荐】最新5篇推荐系统相关论文—文档向量矩阵分解、异构网络融合、树结构深度模型、深度强化学习、负二项矩阵分解
【导读】专知内容组整理了最近五篇推荐系统(Recommender System)相关文章,为大家进行介绍,欢迎查看! 1. ParVecMF: A Paragraph Vector-based Matrix Factorization Recommender System(ParVecMF:基于文档向量矩阵分解模型的推荐系统) ---- ---- 作者:Georgios Alexandridis,Georgios Siolas,Andreas Stafylopatis 摘要:Review-based rec
WZEARW
2018/04/13
1.2K0
【论文推荐】最新5篇推荐系统相关论文—文档向量矩阵分解、异构网络融合、树结构深度模型、深度强化学习、负二项矩阵分解
ICLR2023推荐系统论文整理
ICLR国际表征学习大会是深度学习领域的顶级会议。本次会议共收到4956篇论文投稿,接收1574篇,本届会议录用率约为30%。其中涉及推荐系统相关论文5篇,特此整理出来以供大家学习。
张小磊
2023/08/22
4480
ICLR2023推荐系统论文整理
论文周报 | 推荐系统领域最新研究进展,含WWW, SIGIR, AAAI等顶会论文
本文精选了上周(0508-0514)最新发布的24篇推荐系统相关论文,主要研究方向包括大型语言模型赋能推荐系统、对话推荐系统、图推荐系统、隐私保护推荐系统、工业界推荐系统(来自谷歌、亚马逊、阿里)等。
张小磊
2023/08/22
3450
论文周报 | 推荐系统领域最新研究进展,含WWW, SIGIR, AAAI等顶会论文
强化学习大规模应用还远吗?Youtube推荐已强势上线
凡是Google出品,必属精品。遥想当年(其实也就近在2016),YoutubeDNN[1]以及WDL[2]的横空出世引领了推荐系统以及CTR预估工业界潮流至今,掀起了召回层与排序层算法大规模优雅而高效地升级深度学习模型的浪潮。发展至今其实已经形成了工业界推荐系统与广告CTR预估的庞大家族群,具体可以参见下文中的家族图谱。
AI科技大本营
2019/07/12
9550
强化学习大规模应用还远吗?Youtube推荐已强势上线
论文周报 | 推荐系统领域最新研究进展,含CVPR, SIGIR, KDD等顶会论文
本文精选了上周(0612-0618)最新发布的19篇推荐系统相关论文,主要研究方向包括语言指导的音乐推荐系统、基于扩散模型的推荐系统、字体推荐系统、来自谷歌的推荐中的排序探究、语音对话推荐系统、大型语言模型赋能推荐系统综述等。
张小磊
2023/08/22
9120
论文周报 | 推荐系统领域最新研究进展,含CVPR, SIGIR, KDD等顶会论文
推荐阅读
论文阅读8-----基于强化学习的推荐系统
1.1K1
论文阅读13-----基于强化学习的推荐系统
1K0
论文阅读14-----强化学习在推荐系统中的应用
9851
论文阅读9-----基于强化学习的推荐系统
7120
论文阅读5-----基于强化学习的推荐系统
5350
论文阅读4-----基于强化学习的推荐系统
7250
论文阅读10-----基于强化学习的互联网应用
4940
论文阅读2-----基于强化学习的推荐系统
1K1
论文阅读7-----基于强化学习的推荐系统
6100
论文阅读6-----基于强化学习的推荐系统
5671
论文阅读3-----基于强化学习的推荐系统
1.1K0
【论文推荐】最新5篇深度强化学习相关论文推荐—经验驱动的网络、自动数据库管理、双光技术推荐系统、UAVs、多代理竞争对手
4.5K0
强化学习推荐系统的模型结构与特点总结
1.2K0
【论文推荐】了解《通信强化学习》必看的6篇论文(附打包下载地址)
4240
从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用
3.2K1
【论文推荐】最新5篇推荐系统相关论文—文档向量矩阵分解、异构网络融合、树结构深度模型、深度强化学习、负二项矩阵分解
1.2K0
ICLR2023推荐系统论文整理
4480
论文周报 | 推荐系统领域最新研究进展,含WWW, SIGIR, AAAI等顶会论文
3450
强化学习大规模应用还远吗?Youtube推荐已强势上线
9550
论文周报 | 推荐系统领域最新研究进展,含CVPR, SIGIR, KDD等顶会论文
9120
相关推荐
论文阅读8-----基于强化学习的推荐系统
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档