[mathjax] 值函数近似 之前介绍的集中方法由于需要保存诸如效用迹、Q值表等信息,就会造成在拥有大量的状态的环境下存储空间不足的问题。 引入近似价值函数,不论是预测还是控制问题,都将转变成近似函数的设计及求解近似函数的参数这两个问题了。 价值近似 假设个体可以在...

 2018年8月15日 -  1503次阅读 -  0条评论

[mathjax] 不基于模型的控制 主要关于不基于模型的条件下如何通过个体的学习优化价值函数 行为策略:指导个体产生与环境交互的行为的策略 目标策略:评价状态或者行为价值的策略或者待优化的策略如果个体在学习的过程中优化的策略与行为策略是同一个策略,则称为现时...

 2018年8月14日 -  781次阅读 -  0条评论

[mathjax] 动态规划寻找最优策略 动态规划问题中一般都有: 重叠的子问题 通过解决子问题可以得到整个问题的解马尔可夫决定过程(MDP)具有上述的两个属性。 预测和控制是规划的两个重要的内容。预测是对给定的策略的评估过程;控制是寻找一个最优策略的过程。 ...

 2018年8月12日 -  487次阅读 -  0条评论

[mathjax] 马尔科夫性 马尔可夫性指系统的下一个状态 $s_{t+1}$ 仅与当前状态 $s_t$ 有关,而与之前的状态无关。定义为 $P[s_{t+1}|s_t] = P[s_{t+1}|s_1,...,s_t]$。可以看出当前状态 $s_t$ 蕴含了历史信息。 马尔科夫过程 定义:马尔科夫过程是一个二元组 $(S,P)$ ,且满足...

 2018年8月10日 -  779次阅读 -  0条评论