[mathjax] 对角化 可以为计算方阵的幂提供方便: $$ A^k=\begin{bmatrix} a^k & 0 \\ 0 & b^k \end{bmatrix} $$ 让$A=PDP^{-1}$那么幂次运算:$A^k=(PDP^{-1})\cdots(PDP^{-1})$去掉括号就成了$A^k=PD^kP^{-1}$. 定理1: P320 假设nxn方阵A可对角化, 当且仅当A有n个线...

 2020年3月10日 -  596次阅读 -  0条评论

Deepmind lab 是一个 Deepmind 团队推出的一个GUI仿真平台,提供 C(C++)/lua/python的接口。以下介绍编译过程(以2019 October 的release 为准) 要求 Linux 系统(似乎不支持Windows),我以Ubuntu 18.04 LTS为例子。 Python(官方默认2.x,3.x为实验特性,但是目前运...

 2019年11月9日 -  1165次阅读 -  0条评论

 已加密

 2019年9月5日 -  578次阅读 -  0条评论

[mathjax] 机器学习中的主要的降维有PCA(无监督学习)和LDA(监督学习)。本文基于scikit的LFW数据集的降维技术。 假设样本矩阵 $X\in\mathbb{R}^{n\times{m}}$ . 这里都用列向量. PCA 基变换 坐标$(a,b)$是一个类似于地址的概念, 这种地址需要和空间上某种表示进行结合才会有...

 2019年5月19日 -  1083次阅读 -  2条评论

[mathjax] Path Consistency Learning 最近阅读了 NEC 论文, 对其中的 DND 的作用感兴趣, 但是 NEC 是基于 Q-learning 的类似于 DQN 的值估计算法. 但是想 A3C 之类的 state-of-art 算法都是基于 PG 的 AC 算法, 目前我想研究的就是 A3C 引入 DQN 中的经验回放以使得 AC 变成 o...

 2019年4月18日 -  1066次阅读 -  0条评论

[mathjax] Nerual Episodic Control - Deepmind NEC 是一种基于能够利用过去经历的值函数半表格表示(semi-representation): 包含有缓慢改变的状态表示(slowly changing state representations)和快速更新的对于这个值函数的更新, 以此更快的适应新的环境. 背景介绍 诸如 A3C 之...

 2019年4月18日 -  544次阅读 -  0条评论

[mathjax] 引言 Retrace(λ) 为了使用由其他策略得到的交互策略得到的样本对当前的模型进行训练. 但是由于样本来自不同的策略(也就说概率分布不同), 我们不能直接使用这些样本, 所以重要性采样就可以使用概率A来为概率分布B采样. 用于估计 off-policy 的轨迹价值. 具有三个方面...

 2019年4月18日 -  1282次阅读 -  0条评论

[mathjax] Convolution & Cross-correlation The primary implement of convolution and cross-correlation. Notes You can refer to the complete notes from 04 Notes Linear Systems(Filter) Denotes the input function: $$f[m,n]$$ Filter is used to convert inp...

 2019年3月9日 -  762次阅读 -  0条评论

[mathjax] Exploration vs Exploitation 探索-利用窘境存在于 RL 环境以及现实环境中. 考虑你有一个喜欢的餐馆. 你可以考虑两种策略: 只去我常去的餐馆: 失去了探索其他更好的餐馆的机会 如果总是去新的餐馆吃饭, 那么你有可能吃到不合口味的饭菜 我们现在就想通过在已知...

 2019年2月17日 -  1914次阅读 -  2条评论

[mathjax] Policy Gradient 记号 符号 解释 $s\in\mathcal{S}$ 状态空间 $a\in\mathcal{A}$ 行为空间 $r\in\mathcal{R}$ 回报 $S_t, A_t, R_t$ 轨迹序列中的状态, 行为和回报, 也可以记为$s_t, a_t, r_t$ $\gamma$ 折扣因子 $G_t$ 带折扣的未来回报, 定义为$G_...

 2019年2月15日 -  1466次阅读 -  1条评论