(强化学习)- 多摇臂赌博机问题和解决方案

Exploration vs Exploitation

探索-利用窘境存在于 RL 环境以及现实环境中. 考虑你有一个喜欢的餐馆. 你可以考虑两种策略:

  • 只去我常去的餐馆: 失去了探索其他更好的餐馆的机会
  • 如果总是去新的餐馆吃饭, 那么你有可能吃到不合口味的饭菜

我们现在就想通过在已知的吸引人的广告和新广告之间做出选择, 选择一个合适的平衡.

Read more

(强化学习)- DQN

DQN(Deep Q-)由 Google Deepmind 提出用于玩 Atair 系列的游戏以及 ALE 结构的游戏. DQN 的输入是一些像素点, 在过去这是很难被处理的. 同时一些强化学习的方法存在了一些挑战:

Read more

(强化学习) – 基本概念

介绍

大二下学期学习强化学习(虽然我连机器学习都了解不深),假期也阅读了一些论文,有懂得和不懂的东西。网上的资源实在是太多,所以为了综合书本和网上的资料,我就打算写下我的理解。

化学习的定义是:

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

Read more

(机器学习) – 读书笔记(基础)

  1. 基于数据构建统计模型从而对数据进行预测和分析。统计学习可由监督学习、非监督学习、半监督学习和强化学习等组成。
  2. 分类任务输出的是离散的值;回归任务输出的连续的值

监督学习

监督学习主要由模型、策略和算法组成。他的任务是学习一个模型,能够对任意一个给定的输入,对其给定一个合理的预测的输出。(是不是像一个函数?)

Read more

(强化学习)- 策略梯度

基于策略梯度的深度强化学习

在行为空间规模大或者连续行为的情况下。直接进行策略学习:将策略看成是状态和行为的带参数的策略函数,通过建立恰当的目标函数、利用个体与环境进行交互产生的奖励来学习得到策略函数的参数。策略函数针对连续行为空间将可以直接产生具体行为值,进而绕过对状态的价值学习。

实际中,策略评估和优化是基于价值函数,优化策略函数更加准确地反应状态的价值。

Read more

(强化学习)- 值函数近似

值函数近似

之前介绍的集中方法由于需要保存诸如效用迹、Q值表等信息,就会造成在拥有大量的状态的环境下存储空间不足的问题。

引入近似价值函数,不论是预测还是控制问题,都将转变成近似函数的设计及求解近似函数的参数这两个问题了。

Read more

(强化学习)- 不基于模型的控制

不基于模型的控制

主要关于不基于模型的条件下如何通过个体的学习优化价值函数

  • 行为策略:指导个体产生与环境交互的行为的策略
  • 目标策略:评价状态或者行为价值的策略或者待优化的策略如果个体在学习的过程中优化的策略与行为策略是同一个策略,则称为现时策略学习(on-policy learning),如果不是同一个策略,则称为借鉴策略学习(off-policy learning)

Read more

(强化学习)- 动态规划寻找最优策略和不基于模型的学习

动态规划寻找最优策略

动态规划问题中一般都有:

  • 重叠的子问题
  • 通过解决子问题可以得到整个问题的解马尔可夫决定过程(MDP)具有上述的两个属性。

预测和控制是规划的两个重要的内容。预测是对给定的策略的评估过程;控制是寻找一个最优策略的过程。

  • 预测:已知一个马尔可夫决策过程 MDP $<S,A,P,R,\gamma>$和一个策略$\pi$,或者是一个马尔可夫奖励过程MRP$<S,P_\pi,R_\pi,\gamma>$,求解基于该策略的价值函数$v_\pi$
  • 控制:已知一个马尔可夫决策过程 MDP $<S,A,P,R,\gamma>$,求最优价值函数$v_*$和最优策略$\pi$

Read more

(强化学习)- 马尔可夫过程

马尔科夫性

马尔可夫性指系统的下一个状态 $s_{t+1}$ 仅与当前状态 $s_t$ 有关,而与之前的状态无关。定义为 $P[s_{t+1}|s_t] = P[s_{t+1}|s_1,...,s_t]$。可以看出当前状态 $s_t$ 蕴含了历史信息。

Read more