Deepmind lab 是一个 Deepmind 团队推出的一个GUI仿真平台,提供 C(C++)/lua/python的接口。以下介绍编译过程(以2019 October 的release 为准) 要求 Linux 系统(似乎不支持Windows),我以Ubuntu 18.04 LTS为例子。 Python(官方默认2.x,3.x为实验特性,但是目前运...

 2019年11月9日 -  1242次阅读 -  0条评论

 已加密

 2019年9月5日 -  612次阅读 -  0条评论

[mathjax] Path Consistency Learning 最近阅读了 NEC 论文, 对其中的 DND 的作用感兴趣, 但是 NEC 是基于 Q-learning 的类似于 DQN 的值估计算法. 但是想 A3C 之类的 state-of-art 算法都是基于 PG 的 AC 算法, 目前我想研究的就是 A3C 引入 DQN 中的经验回放以使得 AC 变成 o...

 2019年4月18日 -  1124次阅读 -  0条评论

[mathjax] Nerual Episodic Control - Deepmind NEC 是一种基于能够利用过去经历的值函数半表格表示(semi-representation): 包含有缓慢改变的状态表示(slowly changing state representations)和快速更新的对于这个值函数的更新, 以此更快的适应新的环境. 背景介绍 诸如 A3C 之...

 2019年4月18日 -  584次阅读 -  0条评论

[mathjax] 引言 Retrace(λ) 为了使用由其他策略得到的交互策略得到的样本对当前的模型进行训练. 但是由于样本来自不同的策略(也就说概率分布不同), 我们不能直接使用这些样本, 所以重要性采样就可以使用概率A来为概率分布B采样. 用于估计 off-policy 的轨迹价值. 具有三个方面...

 2019年4月18日 -  1348次阅读 -  0条评论

[mathjax] Exploration vs Exploitation 探索-利用窘境存在于 RL 环境以及现实环境中. 考虑你有一个喜欢的餐馆. 你可以考虑两种策略: 只去我常去的餐馆: 失去了探索其他更好的餐馆的机会 如果总是去新的餐馆吃饭, 那么你有可能吃到不合口味的饭菜 我们现在就想通过在已知...

 2019年2月17日 -  2049次阅读 -  2条评论

[mathjax] Policy Gradient 记号 符号 解释 $s\in\mathcal{S}$ 状态空间 $a\in\mathcal{A}$ 行为空间 $r\in\mathcal{R}$ 回报 $S_t, A_t, R_t$ 轨迹序列中的状态, 行为和回报, 也可以记为$s_t, a_t, r_t$ $\gamma$ 折扣因子 $G_t$ 带折扣的未来回报, 定义为$G_...

 2019年2月15日 -  1513次阅读 -  1条评论

[mathjax] DQN(Deep Q-)由 Google Deepmind 提出用于玩 Atair 系列的游戏以及 ALE 结构的游戏. DQN 的输入是一些像素点, 在过去这是很难被处理的. 同时一些强化学习的方法存在了一些挑战: 深度学习的任务包含了大量的需要被标记的数据, 也就是说 RL 算法需要从那些标量的...

 2019年2月9日 -  2237次阅读 -  0条评论

[mathjax] 介绍 大二下学期学习强化学习(虽然我连机器学习都了解不深),假期也阅读了一些论文,有懂得和不懂的东西。网上的资源实在是太多,所以为了综合书本和网上的资料,我就打算写下我的理解。 化学习的定义是: Reinforcement learning is learning what to do ----h...

 2019年2月9日 -  1323次阅读 -  0条评论

[mathjax] 基于策略梯度的深度强化学习 在行为空间规模大或者连续行为的情况下。直接进行策略学习:将策略看成是状态和行为的带参数的策略函数,通过建立恰当的目标函数、利用个体与环境进行交互产生的奖励来学习得到策略函数的参数。策略函数针对连续行为空间将可以直接产生...

 2018年8月16日 -  1863次阅读 -  0条评论