MY Blog

Welcome to my world.

多智能体强化学习算法

提纲

以下是我整理的多智能体深度强化学习中值得阅读的论文列表以及阅读总结与思考。该列表并不全面,但建议对多智能体强化学习感兴趣的同学朋友们进行阅读~ Analysis of Emergent Behaviors Can Deep Reinforcement Learning solve Erdos-Selfridge-Spencer Games? Emer...

单智能体强化学习算法

Diversity is All You Need:Learning Skills without a Reward Function

论文链接:Diversity is All You Need:Learning Skills without a Reward Function, ICRL 2019 代码链接:github链接 一、问题 强化学习一般需要通过奖励函数的引导来学习只能用于特定的任务的policy。受人类学习过程的启发,这篇文章研究,agent如何在没有task-dependent reward的情况...

多智能体强化学习算法

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

论文链接:Q-value Path Decomposition for Deep Multiagent Reinforcement Learning, ICML 2020 一、问题 VDN、QMIX和QTRAN等值函数分解的方法对每个智能体的Q函数和全局的Q函数之间的表征关系都有限制。本文利用积分梯度归因技术来将全局Q分解给每个智能体。 二、解法 2.1 积分梯度 积分梯度法 ...

多智能体强化学习算法

Multi Type Mean Field Reinforcement Learning

论文链接:Multi Type Mean Field Reinforcement Learning, AAMAS 2020 一、问题 汪军老师组的MFQ依赖于一个重要的假设,即环境中所有的智能体均具有相同的目标,采取相似的策略。然而实际中智能体可能会多种多样,无法把它们聚合到同一个平均场中。这种场景有两种: 提前知道有哪些分组以及每个智能体所属的分组,如多党选举中的每个人 ...

多智能体强化学习算法

Mean Field Multi-Agent Reinforcement Learning

论文链接:Mean Field Multi-Agent Reinforcement Learning, ICML 2018 一、问题 解决大规模智能体之间的交互及计算困难。由于多智能体强化学习问题不仅有环境交互问题,还有智能体之间的动态影响,因此为了得到最优策略,每个智能体都需要考察其他智能体的动作及状态得到联合动作值函数。由于状态空间跟动作空间随着智能体数量的增多而迅速扩大,这给计...

单智能体强化学习算法

Behavior Regularized Offline Reinforcement Learning

论文链接:Behavior Regularized Offline Reinforcement Learning, Arxiv  2019 代码链接:github链接 一、问题 Offline RL中常用的两类方法为: 使用target Q-value的ensemble来减少预估误差以稳定Q的学习 考虑到未见过的state-action对更可能产生过估计的Q值,因此将学习...

离线强化学习

Offline (Batch) Reinforcement Learning的相关工作及应用

一、简介 强化学习是通过trial and error来学习如何执行任务,并在exploration和exploitation之间取得适当的平衡。离线强化学习(Offline Reinforcement Learning),又称批量强化学习(Batch Reinforcement Learning) ,是强化学习的一种变体,它要求agent从固定批次的数据中学习,而不进行探索。换句话说即...

单智能体强化学习算法

Data-Efficient Reinforcement Learning with Momentum Predictive Representations

论文链接:Data-Efficient Reinforcement Learning with Momentum Predictive Representations, NIPS 2020 Under Riview 一、问题 使用Contrastive Learning的方法主要的思想核心是提取agent交互环境的有效表征,使得RL可以更好地感知环境做出决策。本文认为如果给定未来的动...

单智能体强化学习算法

CURL:Contrastive Unsupervised Representations for Reinforcement Learning

论文链接:CURL: Contrastive Unsupervised Representations for Reinforcement Learning, ICML 2020 代码链接:github链接 一、问题 RL从pixel中直接端到端学习状态表征的效率非常低,受contrastive learning的思想影响,本文考虑用这种方式来提取pixel的高维特征。但是在RL中...

多智能体强化学习算法

Graph Convolutional Reinforcement Learning

论文链接:Graph Convolutional Reinforcement Learning, ICLR 2020 一、问题 本文考虑到邻居智能体之间的交互更具有影响力,因此将智能体之间的关系视为一个graph,利用graph来研究智能体之间的合作关系。 二、解法 2.1 graph convolution 如下图所示,本文提出的DGN使用三层结构进行构建: 由于智能体...