Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【源头活水】图上如何学习组合优化算法

【源头活水】图上如何学习组合优化算法

作者头像
马上科普尚尚
发布于 2021-03-17 03:02:56
发布于 2021-03-17 03:02:56
4460
举报

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

作者:知乎—养生的控制人

地址:https://www.zhihu.com/people/yilan-zhong-shan-xiao-29-98

文章地址:https://arxiv.org/abs/1704.01665

快捷下载:本公众号后台回复【paper67】下载本论文

对于组合优化(通常是NP难)问题,主要的求解思路有:

  • 精确算法(穷举、分支定界法)
  • 近似算法
  • 启发式算法

本文提出了一种纯机器学习的方法,即直接用机器学习得到最终的解,核心部分有两块:

  • 图嵌入网络(structure2vec)
  • Q-learning

图定义与问题描述

有权图

表示边

的权重。

最小顶点覆盖问题:找到节点的一个子集

使得每条边都被覆盖。

最大切问题:找到节点的额一个子集

使得切集

最大化,其中

是边集,且满足一端节点属于

,另一端节点属于

旅行商问题:给定二维空间的点集,找到一条总权重最小的路径,其中对应的图就是以这些点作为节点的全连接图(边的权重代表点之间的距离),一条完整的路径需要遍历图上的每一个节点一次。

贪婪算法

组合优化问题的解的生成模式是按序贯的方式:每次通过最大化评价函数从候选节点集合

中选择新的节点添加到部分解

最终得到一个完整的解。

对于给定图,定义binary决策变量向量

,其中每个维度

对应图中的一个节点,如果节点属于

,则

引入几个符号定义:

辅助函数

:将部分解映射到一个满足问题约束的组合结构

目标函数

:衡量部分解的质量

贪婪算法添加节点的方式:

其中选择出来的节点添加到列表的最后。

问题设计

  • MVC:无需辅助函数,损失函数为

,终止准则为判断所有边是否覆盖。

  • MAXCUT:辅助函数将

分为两个集合,

和补集

,并维护一个切集

目标函数为

,不需要终止准则。

  • TSP:帮助函数用于维护一条路径。目标函数为:

终止条件是当

图嵌入

利用structure2vec来参数化评价函数

structure2vec:给定当前的部分解

,图嵌入网络Structure2vec能够给每一个节点

算出一个特征嵌入

其中

作用于输入的每一个元素。

进一步可以用节点(多次迭代后)的嵌入来定义评价函数

其中

为拼接操作。

因为节点嵌入基于图嵌入网络的参数,因此评价函数需要训练的参数有七个,作者采用强化学习的方式对这些参数进行端到端的学习。

Q-learning

强化学习建模

状态:对应这里的由节点嵌入表示的图嵌入

转移:这里的转移是确定性的,被选择的节点特征置为

动作:选择一个不属于当前状态的节点,采用节点的嵌入描述

奖励:奖励函数定义为

且满足

,因此有终止状态满足

控制律:

学习算法

一个episode表示一条完整的序列,一个step表示一次节点的添加。

Standard (1-step) Q-learning 最小化

其中

n-step Q-learning 解决延迟奖励的问题(the final reward of interest to the agent is only received far in the future during an episode):

最终的算法描述:

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
专访乔治亚理工宋乐教授:用强化学习为图论组合优化问题寻找“元算法”
大数据文摘作品,转载要求见文末 作者|钱天培 导读: 从交通优化、信息传播优化、用户网络分析,组合优化这一传统计算问题在日常应用中无处不在。然而,这类问题往往是NP难题(NP-hard),并需要大量的专业知识和试错来解决。在许多实际生活的应用中,相似的组合优化问题一次又一次的出现,而每次面对具有相同形式、但数据不同的问题,却需要大量人力一遍又一遍的设计新的算法方案。在机器学习席卷各个行业的同时,我们不禁想问:组合优化这一传统的应用数学问题是否也会有新的自动化的解决方法呢? 后台回复“图论”获取宋乐教授论文L
大数据文摘
2018/05/25
3K0
【强化学习】基础离线算法:Q-Learning算法
在强化学习中,Q-Learning 是一种基于值函数的强化学习算法。它通过学习一个状态-动作值函数(Q函数)来选择最优策略。Q-Learning 是一种 无模型(model-free) 的强化学习方法,意味着它不需要了解环境的动态(即转移概率和奖励函数),而只依赖于与环境的交互。
不去幼儿园
2024/12/18
1.4K0
【强化学习】基础离线算法:Q-Learning算法
【源头活水】Transfer in DRL Using SFs & GPI
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/03/17
3800
【源头活水】Transfer in DRL Using SFs & GPI
用于组合优化的强化学习:学习策略解决复杂的优化问题
从人类诞生之初,每一项技术创新,每一项改善我们生活的发明都是经过奇思妙想后设计出来的。从火到车轮,从电力到量子力学,我们对世界的理解和我们周围事物的复杂性,已经增长到难以直观地掌握它们的程度。
AiTechYun
2019/05/13
3K0
用于组合优化的强化学习:学习策略解决复杂的优化问题
【源头活水】PDE遇见深度学习
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/01/14
2K0
【源头活水】PDE遇见深度学习
【源头活水】深入理解:迁移强化学习之Successor Representation
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/03/17
1.1K0
【源头活水】深入理解:迁移强化学习之Successor Representation
【源头活水】驾驶行为预测方法:分层自适应可迁移网络HATN
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/11/16
4650
【源头活水】AlphaGo Zero技术梳理
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/03/17
8240
【源头活水】AlphaGo Zero技术梳理
【源头活水】MLP-Mixer 里隐藏的卷积
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/05/20
6880
【RL Latest Tech】分层强化学习:MAXQ分解算法
MAXQ分解是一种用于分层强化学习(Hierarchical Reinforcement Learning, HRL)的算法,由Thomas G. Dietterich提出。该算法通过将复杂的任务分解成更小的子任务来简化问题,并利用这些子任务来构建更复杂的策略。
不去幼儿园
2024/12/03
3100
【RL Latest Tech】分层强化学习:MAXQ分解算法
【源头活水】EMNLP 2023 | 基于大语言模型的复杂任务认知推理算法CogTree
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2023/12/15
4190
【源头活水】EMNLP 2023 | 基于大语言模型的复杂任务认知推理算法CogTree
论文趣读:人工智能里程碑?回顾2015年登上Nature的DQN(全文翻译+批注)
文章:Mnih V , Kavukcuoglu K , Silver D , et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013. DeepMind链接:(https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)
Piper蛋窝
2020/11/19
1.8K0
论文趣读:人工智能里程碑?回顾2015年登上Nature的DQN(全文翻译+批注)
【源头活水】探究小样本学习中等变性与不变性表示的互补优势
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/03/17
6690
【源头活水】探究小样本学习中等变性与不变性表示的互补优势
【AlphaGo Zero 核心技术-深度强化学习教程笔记05】不基于模型的控制
【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习,为此,专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记,在专知发布推荐给大家!(关注专知公众号,获取强化学习pdf资料,详情
WZEARW
2018/04/09
7900
【AlphaGo Zero 核心技术-深度强化学习教程笔记05】不基于模型的控制
强化学习之不基于模型的控制(五)
-贪婪策略)被提出,其基本思想就是使得某一状态下所有可能的行为都有几率被选中执行,具体通过设置一个比较小的
CristianoC
2021/01/04
8100
强化学习之不基于模型的控制(五)
强化学习之Q-Learning
我们做事情都会有自己的一个行为准则,比如小时候爸妈常说“不写完作业就不准看电视”。所以我们在写作业的状态(state)下,好的行为就是继续写作业,直到写完它,我们还可以得到奖励(reward),不好的行为就是没写完作业就跑去看电视了,被爸妈发现就会被惩罚,这种事情做的多了,也变成了我们不可磨灭的记忆,这其实就是一个Q-learning的决策过程。
CristianoC
2020/05/31
1.3K0
强化学习(七)时序差分离线控制算法Q-Learning
    在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Learning算法。
刘建平Pinard
2018/10/10
1.1K0
强化学习(七)时序差分离线控制算法Q-Learning
【源头活水】浅谈图上的自监督学习——对比学习
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2020/11/19
2.3K0
【源头活水】浅谈图上的自监督学习——对比学习
写给开发同学的 AI 强化学习入门指南
作者:bear 该篇文章是我学习过程的一些归纳总结,希望对大家有所帮助。 最近因为 AI 大火,搞的我也对 AI 突然也很感兴趣,于是开启了 AI 的学习之旅。其实我也没学过机器学习,对 AI 基本上一窍不通,但是好在身处在这个信息爆炸的时代,去网上随便一搜发现大把的学习资料。 像这个链接里面:https://github.com/ty4z2008/Qix/blob/master/dl.md 就有很多资料,但是这相当于大海捞针。在学习之前我们先明确自己的目的是什么,如题这篇文章是入门强化学习,那么就需要定义
腾讯技术工程官方号
2023/04/29
1.6K0
写给开发同学的 AI 强化学习入门指南
Scientific Reports|通过深度强化学习优化分子
今天给大家介绍Zhenpeng Zhou , Steven Kearnes等人在Nature/Scientific Reports上发表的文章“Optimization of Molecules via Deep Reinforcement Learning”。这篇文章主要是提出了一个Molecule Deep Q-Networks (MolDQN)框架,通过结合化学领域知识和先进的强化学习技术来进行分子优化。作者采用直接对分子修改的方式,来保证100%的化学有效性;而且在任何数据集上都不进行预训练,以避免可能的偏差;最后通过与其他几种最近发表的分子优化算法对比,得出基于MolDQN框架的分子优化可以获得更好的性能。
智能生信
2021/02/04
8640
推荐阅读
相关推荐
专访乔治亚理工宋乐教授:用强化学习为图论组合优化问题寻找“元算法”
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档