Shu Wang

Silence maks big money

(ML) – PCA和LDA


机器学习中的主要的降维有PCA(无监督学习)和LDA(监督学习)。本文基于scikit的LFW数据集的降维技术。

假设样本矩阵 $X\in\mathbb{R}^{n\times{m}}$ . 这里都用列向量.

Read more

(RL – NIPS 2017) – PCL

Path Consistency Learning

最近阅读了 NEC 论文, 对其中的 DND 的作用感兴趣, 但是 NEC 是基于 Q-learning 的类似于 DQN 的值估计算法. 但是想 A3C 之类的 state-of-art 算法都是基于 PG 的 AC 算法, 目前我想研究的就是 A3C 引入 DQN 中的经验回放以使得 AC 变成 off-policy 之类的算法.

Read more

(ML – ICML 2017) – Nerual Episodic Control

Nerual Episodic Control - Deepmind

NEC 是一种基于能够利用过去经历的值函数半表格表示(semi-representation): 包含有缓慢改变的状态表示(slowly changing state representations)和快速更新的对于这个值函数的更新, 以此更快的适应新的环境. Read more

(RL – ICLR 2017)- ACER 算法

引言

Retrace(λ)

为了使用由其他策略得到的交互策略得到的样本对当前的模型进行训练. 但是由于样本来自不同的策略(也就说概率分布不同), 我们不能直接使用这些样本, 所以重要性采样就可以使用概率A来为概率分布B采样.

用于估计 off-policy 的轨迹价值. 具有三个方面的性质:

  • 低方差: 对总的回报的估计方差会比较低
  • 安全性: 对于off-policy的方法来说,如果行动策略和目标策略相差太大,那么它能确保在训练目标策略时仍可以安全使用行动策略采集的样本。
  • 高效性: 有时候收集样本的行动策略是很接近目标策略(on-policy)的,那它能确保对这种样本的高效利用。有些方法是有了安全性,但是缺失了这种情况下的样本利用的高效性。

Read more

(强化学习)- 多摇臂赌博机问题和解决方案

Exploration vs Exploitation

探索-利用窘境存在于 RL 环境以及现实环境中. 考虑你有一个喜欢的餐馆. 你可以考虑两种策略:

  • 只去我常去的餐馆: 失去了探索其他更好的餐馆的机会
  • 如果总是去新的餐馆吃饭, 那么你有可能吃到不合口味的饭菜

我们现在就想通过在已知的吸引人的广告和新广告之间做出选择, 选择一个合适的平衡.

Read more

(强化学习)- DQN

DQN(Deep Q-)由 Google Deepmind 提出用于玩 Atair 系列的游戏以及 ALE 结构的游戏. DQN 的输入是一些像素点, 在过去这是很难被处理的. 同时一些强化学习的方法存在了一些挑战:

Read more