MY Blog

Welcome to my world.

The Transformer Network for the Traveling Salesman Problem

The Transformer Network for the Traveling Salesman Problem 旅行商问题(Travelling Salesman Problem , TSP)是经典的组合优化问题。TSP描述的是给定$n$个城市(节点)以及这些城市(节点)两两之间的距离,如何在只访问每个城市(节点)一次并最终返回初始起点的条件下,找到一条最短路径?这篇文章较为系统...

离线强化学习(一)

离线强化学习简介、policy constraint类方法简介

离线强化学习(一) 本文为离线强化学习系列介绍的第一部分,包括离线强化学习的简介与部分policy constraint类方法简介。本系列持续更新,欢迎大家关注交流讨论~ 一、简介 标准的强化学习(RL)通过反复试错(trial and error)来学习如何执行任务,并在探索(exploration)与利用(exploitation)之间进行平衡以达到更好的表现。而离线强化学习(...

Attention Mechanism 注意力机制

注意力的发明起源及各种注意力机制和模型介绍

本文翻译、整理并扩充自Lil’s Log、Jay Alammar’ Blog与李宏毅 MACHINE LEARNING 2020 SPRING课程,欢迎大家前往原文学习阅读! 一、背景 近年来,Attention(注意力)已经成为深度学习社区中一个相当流行的概念和实用的工具。 在这篇博客中,我将介绍Attention的发明以及各种Attention机制和模型,例如Transforme...

深度学习与强化学习中的研究与应用(一)

提纲

以下是对深度学习和强化学习某些研究领域的基本概念与最新研究进展介绍。以下文章内容均来自对论文的阅读总结、对互联网上一些资料的翻译、整理并与扩充以及个人研究经验总结。该列表并不全面,但将会持续更新中。欢迎感兴趣的朋友一起交流学习~ Attention Mechanism Offline Reinforcement Learning Self-Supervised Repres...

闲思

2021.03.12 对于做事主次顺序的定义还是要有个清楚而坚定的认识。 2020.08.19 “你们要有战胜懈怠的毅力,有走出彷徨的智慧,也有耐得住寂寞的情怀,但你们更需要的是不唯众、不唯上,不在意在普通的道路上是否比别人走得更快,而是具有从容地行走在无人知晓的荒原上的勇气。因为只有这样,你们才能看到别人看不到的风景。” 2020.08.06 看到了自己的博士录取通知书,沉重,如...

关键词

今年又是关键词频出的一年。这些词汇在社会上的流行也意味着个人与之有难以分开的关系。于我而言,这些词汇代表着什么呢? 新冠疫情 2020年的零点到来之际,结束了北京南山的滑雪之旅,我和阿捷在天津海河之滨的出租车上欣赏着辉煌灯光笼罩的民国建筑群,在疲惫与满足中回到了津南海棠。过了一周,再次因为出差事宜前往北京,并和从武汉归来的阳哥芸哥一起在北京相聚,在故宫购买了福字与春联,在北海公园滑冰...

单智能体强化学习算法

提纲

以下是基于OpenAI Spinning Up整理并扩充的单智能体深度强化学习中值得阅读的论文列表以及我的阅读总结与思考。该列表并不全面,但建议对强化学习感兴趣的同学朋友们进行阅读~ Model-Free RL Deep Q-Learning DQN: Playing Atari with Deep Reinforcemen...

多智能体强化学习算法

提纲

以下是我整理的多智能体深度强化学习中值得阅读的论文列表以及阅读总结与思考。该列表并不全面,但建议对多智能体强化学习感兴趣的同学朋友们进行阅读~ Analysis of Emergent Behaviors Can Deep Reinforcement Learning solve Erdos-Selfridge-Spencer Games? Emer...

单智能体强化学习算法

Diversity is All You Need:Learning Skills without a Reward Function

论文链接:Diversity is All You Need:Learning Skills without a Reward Function, ICRL 2019 代码链接:github链接 一、问题 强化学习一般需要通过奖励函数的引导来学习只能用于特定的任务的policy。受人类学习过程的启发,这篇文章研究,agent如何在没有task-dependent reward的情况...

多智能体强化学习算法

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

论文链接:Q-value Path Decomposition for Deep Multiagent Reinforcement Learning, ICML 2020 一、问题 VDN、QMIX和QTRAN等值函数分解的方法对每个智能体的Q函数和全局的Q函数之间的表征关系都有限制。本文利用积分梯度归因技术来将全局Q分解给每个智能体。 二、解法 2.1 积分梯度 积分梯度法 ...