MY Blog

Welcome to my world.

单智能体强化学习算法

Behavior Regularized Offline Reinforcement Learning

论文链接:Behavior Regularized Offline Reinforcement Learning, Arxiv  2019 代码链接:github链接 一、问题 Offline RL中常用的两类方法为: 使用target Q-value的ensemble来减少预估误差以稳定Q的学习 考虑到未见过的state-action对更可能产生过估计的Q值,因此将学习...

离线强化学习

Offline (Batch) Reinforcement Learning的相关工作及应用

一、简介 强化学习是通过trial and error来学习如何执行任务,并在exploration和exploitation之间取得适当的平衡。离线强化学习(Offline Reinforcement Learning),又称批量强化学习(Batch Reinforcement Learning) ,是强化学习的一种变体,它要求agent从固定批次的数据中学习,而不进行探索。换句话说即...

单智能体强化学习算法

Data-Efficient Reinforcement Learning with Momentum Predictive Representations

论文链接:Data-Efficient Reinforcement Learning with Momentum Predictive Representations, NIPS 2020 Under Riview 一、问题 使用Contrastive Learning的方法主要的思想核心是提取agent交互环境的有效表征,使得RL可以更好地感知环境做出决策。本文认为如果给定未来的动...

单智能体强化学习算法

CURL:Contrastive Unsupervised Representations for Reinforcement Learning

论文链接:CURL: Contrastive Unsupervised Representations for Reinforcement Learning, ICML 2020 代码链接:github链接 一、问题 RL从pixel中直接端到端学习状态表征的效率非常低,受contrastive learning的思想影响,本文考虑用这种方式来提取pixel的高维特征。但是在RL中...

多智能体强化学习算法

Graph Convolutional Reinforcement Learning

论文链接:Graph Convolutional Reinforcement Learning, ICLR 2020 一、问题 本文考虑到邻居智能体之间的交互更具有影响力,因此将智能体之间的关系视为一个graph,利用graph来研究智能体之间的合作关系。 二、解法 2.1 graph convolution 如下图所示,本文提出的DGN使用三层结构进行构建: 由于智能体...

对比自监督学习

对比学习及其在深度学习、强化学习中的进展

一、简介 自监督方法在深度学习中将取代当前占主导地位监督方法的预言已经存在了很长时间。 如今,自监督方法在Pascal VOC检测方面已经超过了监督方法(2019年何恺明提出的MoCo方法),并且在许多其他任务上也显示出了出色的结果。 最近自监督方法兴起的背后是他们都遵循了contrastive learning 。 当前的机器学习方法大多依赖于人类标注信息,这种对标注信息的过度依赖有...

单智能体强化学习算法

Unsupervised State Representation Learning in Atari

论文链接:Unsupervised State Representation Learning in Atari, NIPS 2019 代码链接:github链接 一、问题 RL中通常通过使用来自奖励的信号通过端到端学习来学习状态的表征,但是这种方法通常效率很低,而且学到的表征可能包含很多对RL决策不产生影响的信息。本文借鉴自监督学习中的对比学习方法来构建Atari像素游戏的状态表...

多智能体强化学习算法

Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning

论文链接:Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning, AAAI 2020 一、问题 受社会心理学领域内非常流行的认知一致性理论(Congnitive Consistency Theory)启发,本文作者发现这发现多智能体协作也是适用的: 对环境形成一致性的认知是实现良好协作的必要条件...

多智能体强化学习算法

From Few to More:Large-scale Dynamic Multiagent Curriculum Learning

论文链接:From Few to More: Large-scale Dynamic Multiagent Curriculum Learning, AAAI 2020 代码链接:github链接 一、问题 课程学习(Curriculum Learning)由Montreal大学的Bengio教授团队在2009年的ICML上提出,主要思想是模仿人类学习的特点,由简单到困难来学习课程...

多智能体强化学习算法

Action Semantics Network:Considering the Effects of Actions in Multiagent Systems

论文链接:Action Semantics Network: Considering the Effects of Actions in Multiagent Systems, ICLR 2020 一、问题 本文显式考虑多智能体环境中,智能体不同的动作会对其他智能体产生不同的影响,比如一部分动作会影响环境或自身,另一部分动作会直接影响其他智能体,这种性质称为动作语义。基于此,本文提出...