Shu Wang

Silence maks big money

(RL – NIPS 2017) – PCL

Path Consistency Learning

最近阅读了 NEC 论文, 对其中的 DND 的作用感兴趣, 但是 NEC 是基于 Q-learning 的类似于 DQN 的值估计算法. 但是想 A3C 之类的 state-of-art 算法都是基于 PG 的 AC 算法, 目前我想研究的就是 A3C 引入 DQN 中的经验回放以使得 AC 变成 off-policy 之类的算法.

Read more

(ML – ICML 2017) – Nerual Episodic Control

Nerual Episodic Control - Deepmind

NEC 是一种基于能够利用过去经历的值函数半表格表示(semi-representation): 包含有缓慢改变的状态表示(slowly changing state representations)和快速更新的对于这个值函数的更新, 以此更快的适应新的环境. Read more

(RL – ICLR 2017)- ACER 算法

引言

Retrace(λ)

为了使用由其他策略得到的交互策略得到的样本对当前的模型进行训练. 但是由于样本来自不同的策略(也就说概率分布不同), 我们不能直接使用这些样本, 所以重要性采样就可以使用概率A来为概率分布B采样.

用于估计 off-policy 的轨迹价值. 具有三个方面的性质:

  • 低方差: 对总的回报的估计方差会比较低
  • 安全性: 对于off-policy的方法来说,如果行动策略和目标策略相差太大,那么它能确保在训练目标策略时仍可以安全使用行动策略采集的样本。
  • 高效性: 有时候收集样本的行动策略是很接近目标策略(on-policy)的,那它能确保对这种样本的高效利用。有些方法是有了安全性,但是缺失了这种情况下的样本利用的高效性。

Read more

(强化学习)- 多摇臂赌博机问题和解决方案

Exploration vs Exploitation

探索-利用窘境存在于 RL 环境以及现实环境中. 考虑你有一个喜欢的餐馆. 你可以考虑两种策略:

  • 只去我常去的餐馆: 失去了探索其他更好的餐馆的机会
  • 如果总是去新的餐馆吃饭, 那么你有可能吃到不合口味的饭菜

我们现在就想通过在已知的吸引人的广告和新广告之间做出选择, 选择一个合适的平衡.

Read more

(强化学习)- DQN

DQN(Deep Q-)由 Google Deepmind 提出用于玩 Atair 系列的游戏以及 ALE 结构的游戏. DQN 的输入是一些像素点, 在过去这是很难被处理的. 同时一些强化学习的方法存在了一些挑战:

Read more

(强化学习) – 基本概念

介绍

大二下学期学习强化学习(虽然我连机器学习都了解不深),假期也阅读了一些论文,有懂得和不懂的东西。网上的资源实在是太多,所以为了综合书本和网上的资料,我就打算写下我的理解。

Read more

(强化学习)- 策略梯度

基于策略梯度的深度强化学习

在行为空间规模大或者连续行为的情况下。直接进行策略学习:将策略看成是状态和行为的带参数的策略函数,通过建立恰当的目标函数、利用个体与环境进行交互产生的奖励来学习得到策略函数的参数。策略函数针对连续行为空间将可以直接产生具体行为值,进而绕过对状态的价值学习。

实际中,策略评估和优化是基于价值函数,优化策略函数更加准确地反应状态的价值。

Read more

(强化学习)- 值函数近似

值函数近似

之前介绍的集中方法由于需要保存诸如效用迹、Q值表等信息,就会造成在拥有大量的状态的环境下存储空间不足的问题。

引入近似价值函数,不论是预测还是控制问题,都将转变成近似函数的设计及求解近似函数的参数这两个问题了。

Read more