MY Blog

Welcome to my world.

单智能体强化学习算法

Generalization to New Actions in Reinforcement Learning

论文链接:Generalization to New Actions in Reinforcement Learning, ICML 2020 代码链接:github链接 环境链接:CREATE: Chain REAction Tool Environment 一、问题 许多问题的action set可能会变化,比如机器人用没见过的工具完成任务,推荐系统中对一个新的物品如何进行推...

多智能体强化学习算法

Emergent Complexity via Multi-Agent Competition

论文链接:Emergent Complexity via Multi-Agent Competition, ICLR 2018 github链接:论文环境与算法代码 视频链接:论文实验效果 一、问题 强化学习智能体的复杂度通常只和环境有关,要想训练一个复杂的智能体,通常需要复杂的环境。本文提出多智能体设置下,在竞争环境中的self-play可以训练出远比环境复杂的智能体。Alph...

单智能体强化学习算法

Dynamic Weights in Multi-Objective Deep Reinforcement Learning

论文链接:Dynamic Weights in Multi-Objective Deep Reinforcement Learning, ICML 2019 一、问题 许多现实问题中同时存在多个优化目标,如果可以预先知道每个目标的权重,那么多目标优化的问题可以通过线性叠加的方式转换为单目标优化问题。但是实际中很多问题的不同目标的权重会动态变化,此时线性叠加的方式便不适用了。为了解决这...

多智能体强化学习算法

VDN:Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward

论文链接:Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward, AAMAS 2018 一、问题 多智能体强化学习的传统解决方案有两种: 集中式:通过将各个智能体的状态空间与动作空间组合为联合状态空间与联合动作空间进行集中式训练,将多智能体训练视为单智能体训练...

多智能体强化学习算法

QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

论文链接:QMIX:Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning, ICML 2018 一、问题 IQL(independent Q-learning)是非常暴力的给每个智能体执行一个Q-learning算法,因为共享环境,并且环境随着每个智能体策略、状态发生改变,...

单智能体强化学习算法

RND:Exploration by random network distillation

论文链接:Exploration by random network distillation, ICLR 2019 一、问题 本文的方法旨在解决在高维连续空间中对状态访问计数(count-based)。但由于是高维连续空间,这个计数更多地可以看做是密度估计。如果类似的状态之前访问得少,说明这个状态比较新奇,那么就给予比较高的intrinsic reward。文章用了一个比较机智的方...

单智能体强化学习算法

TD3:Addressing Function Approximation Error in Actor-Critic Methods

论文链接:Addressing Function Approximation Error in Actor-Critic Methods, ICML 2018 一、问题 在机器学习中广泛存在着bias和variance之间的矛盾。如下图所示,图中红心代表真实值,蓝点代表模型预测值: 从图中我们可以很形象的看到偏差(Bias)衡量的是模型输出值与真实样本之间的差异,也就是说偏差越...

单智能体强化学习算法

DPG:Deterministic Policy Gradient Algorithms

论文链接:Deterministic Policy Gradient Algorithms, ICML 2014 一、问题 Stochastic Policy Gradient (SPG) 是通过参数化的概率分布$\pi_{\theta}(a | s)=\mathbb{P}[a | s ; \theta]$,随机地选择动作,即$\pi_{\theta}(a | s)$是一个动作的概率...

单智能体强化学习算法

DDPG:Continuous Control With Deep Reinforcement Learning

论文链接:Continuous Control With Deep Reinforcement Learning, ICLR 2016 一、问题 DQN只能处理离散的、低维的动作空间。DQN不能直接处理连续的原因是它依赖于在每一次最优迭代中寻找 动作值函数的最大值(表现为在Q神经网络中输出每个动作的值函数),针对连续动作空间DQN没有办法输出每个动作的动作值函数。 解决上述...

多智能体强化学习算法

Can Deep Reinforcement Learning solve Erdos-Selfridge-Spencer Games?

论文链接:Can Deep Reinforcement Learning solve Erdos-Selfridge-Spencer Games? ICML 2018 一、问题 深度强化学习的泛化性不好测试,因为总是在训练环境上做测试。本文提出使用一种Spencer’s attacker-defender game,可以用于验证强化学习的泛化性。除此之外,还利用这个环境对比了监督学习...