MY Blog

Welcome to my world.

对比自监督学习

对比学习及其在深度学习、强化学习中的进展

一、简介 自监督方法在深度学习中将取代当前占主导地位监督方法的预言已经存在了很长时间。 如今,自监督方法在Pascal VOC检测方面已经超过了监督方法(2019年何恺明提出的MoCo方法),并且在许多其他任务上也显示出了出色的结果。 最近自监督方法兴起的背后是他们都遵循了contrastive learning 。 当前的机器学习方法大多依赖于人类标注信息,这种对标注信息的过度依赖有...

单智能体强化学习算法

Unsupervised State Representation Learning in Atari

论文链接:Unsupervised State Representation Learning in Atari, NIPS 2019 代码链接:github链接 一、问题 RL中通常通过使用来自奖励的信号通过端到端学习来学习状态的表征,但是这种方法通常效率很低,而且学到的表征可能包含很多对RL决策不产生影响的信息。本文借鉴自监督学习中的对比学习方法来构建Atari像素游戏的状态表...

多智能体强化学习算法

Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning

论文链接:Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning, AAAI 2020 一、问题 受社会心理学领域内非常流行的认知一致性理论(Congnitive Consistency Theory)启发,本文作者发现这发现多智能体协作也是适用的: 对环境形成一致性的认知是实现良好协作的必要条件...

多智能体强化学习算法

From Few to More:Large-scale Dynamic Multiagent Curriculum Learning

论文链接:From Few to More: Large-scale Dynamic Multiagent Curriculum Learning, AAAI 2020 代码链接:github链接 一、问题 课程学习(Curriculum Learning)由Montreal大学的Bengio教授团队在2009年的ICML上提出,主要思想是模仿人类学习的特点,由简单到困难来学习课程...

多智能体强化学习算法

Action Semantics Network:Considering the Effects of Actions in Multiagent Systems

论文链接:Action Semantics Network: Considering the Effects of Actions in Multiagent Systems, ICLR 2020 一、问题 本文显式考虑多智能体环境中,智能体不同的动作会对其他智能体产生不同的影响,比如一部分动作会影响环境或自身,另一部分动作会直接影响其他智能体,这种性质称为动作语义。基于此,本文提出...

多智能体强化学习算法

QTRAN:Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning

论文链接:QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning, ICML 2019 一、问题 VDN将联合动作价值函数分解为单个动作价值函数的和。QMIX扩展了这种可加性的值函数,进行因子分解,将联合作用价值函数表示为单调函数,而不是仅仅...

多智能体强化学习算法

MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

论文链接:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments, NIPS 2017 代码链接:github链接 视频链接:论文实验效果 一、问题 多智能体处于混合模式(合作-竞争)的情形下的问题,并以此提出了MADDPG算法,实质上就是对DDPG算法的一种延伸和扩展。现有算法的问题: ...

多智能体强化学习算法

COMA:Counterfactual Multi-Agent Policy Gradients

论文链接:Counterfactual Multi-Agent Policy Gradients, AAAI 2017 代码链接:github链接 一、问题 文章针对multi-agent设置下存在的三个挑战进行了算法设计: Modelling other agents’ information:在multi-agent的设置下,过去常用的independent actor-...

多智能体强化学习算法

Multiagent cooperation and competition with deep reinforcement learning

论文链接:Multiagent cooperation and competition with deep reinforcement learning, PLOS ONE 2017 github链接:论文环境与算法代码 视频链接:论文实验效果 一、问题 本文研究了将DQN算法扩展到多智能体设置下时,在合作或竞争环境下智能体的表现。 二、解法 本文修改了Pong游戏的环境使之...

多智能体强化学习算法

Malthusian Reinforcement Learning

论文链接:Malthusian Reinforcement Learning, AAMAS 2019 一、问题 单智能体强化学习通常依赖于内在动机,但是纵观人类历史发展,内在动机并不能解释许多行为,如人类迁徙。迁徙通常与气候变化或人口规模增长有关。本文研究了这种人口规模变化是否可以作为多智能体强化学习中的一种算法机制。这种算法机制称作马尔萨斯强化学习。之所以称为马尔萨斯强化学习,是因...