MY Blog

Welcome to my world.

Offline Reinforcement Learning as One Big Sequence Modeling Problem

Offline Reinforcement Learning as One Big Sequence Modeling Problem 本文发表于NeurIPS 2021,论文链接详见https://openreview.net/forum?id=wgeK563QgSw 一、问题 标准的强化学习框架侧重于将复杂的长期问题分解为更小、更易处理的子问题,从而采用动态规划方法(如 Q -...

离线强化学习(二)

policy constraint类方法简介

离线强化学习(二) 本文为离线强化学习系列介绍的第二部分,包括部分policy constraint类方法简介。本系列持续更新,欢迎大家关注交流讨论~ 本系列所有链接如下: 离线强化学习(一):离线强化学习与部分policy constraint类方法简介 离线强化学习(二):部分policy constraint类方法简介 一、Pol...

Reinforcement Learning Theory and Algorithm

Fundamentals

RL Theory and Algorithm (1): Fundamentals 输出倒逼输入!本系列准备硬啃Alekh Agarwal,Nan Jiang,Sham M. Kakade和Wen Sun所写的《Reinforcement Learning: Theory and Algorithm》,强化一下自己的RL理论储备。本篇主要介绍一下基础知识。 一、Markov Deci...

The Transformer Network for the Traveling Salesman Problem

The Transformer Network for the Traveling Salesman Problem 旅行商问题(Travelling Salesman Problem , TSP)是经典的组合优化问题。TSP描述的是给定$n$个城市(节点)以及这些城市(节点)两两之间的距离,如何在只访问每个城市(节点)一次并最终返回初始起点的条件下,找到一条最短路径?这篇文章较为系统...

离线强化学习(一)

离线强化学习简介、policy constraint类方法简介

离线强化学习(一) 本文为离线强化学习系列介绍的第一部分,包括离线强化学习的简介与部分policy constraint类方法简介。本系列持续更新,欢迎大家关注交流讨论~ 一、简介 标准的强化学习(RL)通过反复试错(trial and error)来学习如何执行任务,并在探索(exploration)与利用(exploitation)之间进行平衡以达到更好的表现。而离线强化学习(...

Attention Mechanism 注意力机制

注意力的发明起源及各种注意力机制和模型介绍

本文翻译、整理并扩充自Lil’s Log、Jay Alammar’ Blog与李宏毅 MACHINE LEARNING 2020 SPRING课程,欢迎大家前往原文学习阅读! 一、背景 近年来,Attention(注意力)已经成为深度学习社区中一个相当流行的概念和实用的工具。 在这篇博客中,我将介绍Attention的发明以及各种Attention机制和模型,例如Transforme...

深度学习与强化学习中的研究与应用(一)

提纲

以下是对深度学习和强化学习某些研究领域的基本概念与最新研究进展介绍。以下文章内容均来自对论文的阅读总结、对互联网上一些资料的翻译、整理并与扩充以及个人研究经验总结。该列表并不全面,但将会持续更新中。欢迎感兴趣的朋友一起交流学习~ Attention Mechanism Offline Reinforcement Learning Self-Supervised Repres...

闲思

2021.03.12 对于做事主次顺序的定义还是要有个清楚而坚定的认识。 2020.08.19 “你们要有战胜懈怠的毅力,有走出彷徨的智慧,也有耐得住寂寞的情怀,但你们更需要的是不唯众、不唯上,不在意在普通的道路上是否比别人走得更快,而是具有从容地行走在无人知晓的荒原上的勇气。因为只有这样,你们才能看到别人看不到的风景。” 2020.08.06 看到了自己的博士录取通知书,沉重,如...

关键词

今年又是关键词频出的一年。这些词汇在社会上的流行也意味着个人与之有难以分开的关系。于我而言,这些词汇代表着什么呢? 新冠疫情 2020年的零点到来之际,结束了北京南山的滑雪之旅,我和阿捷在天津海河之滨的出租车上欣赏着辉煌灯光笼罩的民国建筑群,在疲惫与满足中回到了津南海棠。过了一周,再次因为出差事宜前往北京,并和从武汉归来的阳哥芸哥一起在北京相聚,在故宫购买了福字与春联,在北海公园滑冰...

单智能体强化学习算法

提纲

以下是基于OpenAI Spinning Up整理并扩充的单智能体深度强化学习中值得阅读的论文列表以及我的阅读总结与思考。该列表并不全面,但建议对强化学习感兴趣的同学朋友们进行阅读~ Model-Free RL Deep Q-Learning DQN: Playing Atari with Deep Reinforcemen...