MY Blog

Welcome to my world.

Attention Mechanism 注意力机制

注意力的发明起源及各种注意力机制和模型介绍

本文翻译、整理并扩充自Lil’s Log、Jay Alammar’ Blog与李宏毅 MACHINE LEARNING 2020 SPRING课程,欢迎大家前往原文学习阅读! 一、背景 近年来,Attention(注意力)已经成为深度学习社区中一个相当流行的概念和实用的工具。 在这篇博客中,我将介绍Attention的发明以及各种Attention机制和模型,例如Transforme...

深度学习与强化学习中的研究与应用(一)

提纲

以下是对深度学习和强化学习某些研究领域的基本概念与最新研究进展介绍。以下文章内容均来自对论文的阅读总结、对互联网上一些资料的翻译、整理并与扩充以及个人研究经验总结。该列表并不全面,但将会持续更新中。欢迎感兴趣的朋友一起交流学习~ Attention Mechanism Offline Reinforcement Learning Self-Supervised Repres...

闲思

2021.03.12 对于做事主次顺序的定义还是要有个清楚而坚定的认识。 2020.08.19 “你们要有战胜懈怠的毅力,有走出彷徨的智慧,也有耐得住寂寞的情怀,但你们更需要的是不唯众、不唯上,不在意在普通的道路上是否比别人走得更快,而是具有从容地行走在无人知晓的荒原上的勇气。因为只有这样,你们才能看到别人看不到的风景。” 2020.08.06 看到了自己的博士录取通知书,沉重,如...

关键词

今年又是关键词频出的一年。这些词汇在社会上的流行也意味着个人与之有难以分开的关系。于我而言,这些词汇代表着什么呢? 新冠疫情 2020年的零点到来之际,结束了北京南山的滑雪之旅,我和阿捷在天津海河之滨的出租车上欣赏着辉煌灯光笼罩的民国建筑群,在疲惫与满足中回到了津南海棠。过了一周,再次因为出差事宜前往北京,并和从武汉归来的阳哥芸哥一起在北京相聚,在故宫购买了福字与春联,在北海公园滑冰...

单智能体强化学习算法

提纲

以下是基于OpenAI Spinning Up整理并扩充的单智能体深度强化学习中值得阅读的论文列表以及我的阅读总结与思考。该列表并不全面,但建议对强化学习感兴趣的同学朋友们进行阅读~ Model-Free RL Deep Q-Learning DQN: Playing Atari with Deep Reinforcemen...

多智能体强化学习算法

提纲

以下是我整理的多智能体深度强化学习中值得阅读的论文列表以及阅读总结与思考。该列表并不全面,但建议对多智能体强化学习感兴趣的同学朋友们进行阅读~ Analysis of Emergent Behaviors Can Deep Reinforcement Learning solve Erdos-Selfridge-Spencer Games? Emer...

单智能体强化学习算法

Diversity is All You Need:Learning Skills without a Reward Function

论文链接:Diversity is All You Need:Learning Skills without a Reward Function, ICRL 2019 代码链接:github链接 一、问题 强化学习一般需要通过奖励函数的引导来学习只能用于特定的任务的policy。受人类学习过程的启发,这篇文章研究,agent如何在没有task-dependent reward的情况...

多智能体强化学习算法

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

论文链接:Q-value Path Decomposition for Deep Multiagent Reinforcement Learning, ICML 2020 一、问题 VDN、QMIX和QTRAN等值函数分解的方法对每个智能体的Q函数和全局的Q函数之间的表征关系都有限制。本文利用积分梯度归因技术来将全局Q分解给每个智能体。 二、解法 2.1 积分梯度 积分梯度法 ...

多智能体强化学习算法

Multi Type Mean Field Reinforcement Learning

论文链接:Multi Type Mean Field Reinforcement Learning, AAMAS 2020 一、问题 汪军老师组的MFQ依赖于一个重要的假设,即环境中所有的智能体均具有相同的目标,采取相似的策略。然而实际中智能体可能会多种多样,无法把它们聚合到同一个平均场中。这种场景有两种: 提前知道有哪些分组以及每个智能体所属的分组,如多党选举中的每个人 ...

多智能体强化学习算法

Mean Field Multi-Agent Reinforcement Learning

论文链接:Mean Field Multi-Agent Reinforcement Learning, ICML 2018 一、问题 解决大规模智能体之间的交互及计算困难。由于多智能体强化学习问题不仅有环境交互问题,还有智能体之间的动态影响,因此为了得到最优策略,每个智能体都需要考察其他智能体的动作及状态得到联合动作值函数。由于状态空间跟动作空间随着智能体数量的增多而迅速扩大,这给计...