(强化学习)- 策略梯度

基于策略梯度的深度强化学习

在行为空间规模大或者连续行为的情况下。直接进行策略学习:将策略看成是状态和行为的带参数的策略函数,通过建立恰当的目标函数、利用个体与环境进行交互产生的奖励来学习得到策略函数的参数。策略函数针对连续行为空间将可以直接产生具体行为值,进而绕过对状态的价值学习。

实际中,策略评估和优化是基于价值函数,优化策略函数更加准确地反应状态的价值。

Read more

(强化学习)- 值函数近似

值函数近似

之前介绍的集中方法由于需要保存诸如效用迹、Q值表等信息,就会造成在拥有大量的状态的环境下存储空间不足的问题。

引入近似价值函数,不论是预测还是控制问题,都将转变成近似函数的设计及求解近似函数的参数这两个问题了。

Read more

(强化学习)- 不基于模型的控制

不基于模型的控制

主要关于不基于模型的条件下如何通过个体的学习优化价值函数

  • 行为策略:指导个体产生与环境交互的行为的策略
  • 目标策略:评价状态或者行为价值的策略或者待优化的策略如果个体在学习的过程中优化的策略与行为策略是同一个策略,则称为现时策略学习(on-policy learning),如果不是同一个策略,则称为借鉴策略学习(off-policy learning)

Read more

(强化学习)- 动态规划寻找最优策略和不基于模型的学习

动态规划寻找最优策略

动态规划问题中一般都有:

  • 重叠的子问题
  • 通过解决子问题可以得到整个问题的解马尔可夫决定过程(MDP)具有上述的两个属性。

预测和控制是规划的两个重要的内容。预测是对给定的策略的评估过程;控制是寻找一个最优策略的过程。

  • 预测:已知一个马尔可夫决策过程 MDP $<S,A,P,R,\gamma>$和一个策略$\pi$,或者是一个马尔可夫奖励过程MRP$<S,P_\pi,R_\pi,\gamma>$,求解基于该策略的价值函数$v_\pi$
  • 控制:已知一个马尔可夫决策过程 MDP $<S,A,P,R,\gamma>$,求最优价值函数$v_*$和最优策略$\pi$

Read more

(强化学习)- 马尔可夫过程


大二下学期学习强化学习(虽然我连机器学习都了解不深),假期也阅读了一些论文,有懂得和不懂的东西。网上的资源实在是太多,所以为了综合书本和网上的资料,我就打算写下我的理解。

强化学习

强化学习的定义是:

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

也就是说增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略

Read more

(Linux 高性能服务器) – TCP 协议笔记

TCP 协议笔记

传输协议

传输协议主要有两种:TCP 和 UDP。TCP 的特点是面向连接、字节流和可靠传输

  • 使用 TCP 协议的通信双方必须建立连接,然后才能开始数据读写。双方必须为该连接分配必要的内核资源以管理连接状态和数据。同时 TCP 连接是全双工的,即双方的数据读写可以通过一个连接进行。完成数据交换之后,通信双方都必须断开连接以释放系统资源。
  • TCP 一对一连接,而 UDP 适用于广播和多播(目标十多个主机地址)

Read more

(Linux 高性能服务器) – IP 协议笔记

IP 协议

IP 服务的特点

IP 协议是 TCP/IP 协议族的动力,他为上层协议提供无状态、无连接、不可靠的服务

  • 无状态:IP通信双方不同步传输数据的状态信息,因此所有IP数据报的发送、传输和接收都是相互独立、没有上下文关系的。缺点就是无法乱序处理和重复的 IP数据报。
  • 无连接:IP通信双方都不长久地维持对方的任何信息。这样,上层协议每次发送数据的时候,都必须明确指定对方的IP地址。
  • 不可靠:IP协议不能保证IP数据报准确地到达接收端,它只是承诺尽最大努力(best effort)。很多种情况都能导致IP数据报发送失败。比如,某个中转路由器发现IP数据报在网络上存活的时间太长(根据IP数据报头部字段TTL判断,见后文),那么它将丢弃之,并返回一个ICMP错误消息(超时错误)给发送端。又比如,接收端发现收到的IP数据报不正确(通过校验机制),它也将丢弃之,并返回一个ICMP错误消息(IP头部参数错误)给发送端。无论哪种情况,发送端的IP模块一旦检测到IP数据报发送失败,就通知上层协议发送失败,而不会试图重传。因此,使用IP服务的上层协议(比如TCP协议)需要自己实现数据确认、超时重传等机制以达到可靠传输的目的。

Read more

(C#) – 与 SQL Server 交互

SQL Server 与 C# 交互

SQL Server 的权限管理

SQL 语句我就不多说了。这篇文章仅仅用来记录如何让 C# 与 SQL Server 进行连接。在 SQL Server 中,可以创建登录名(在 MySQL 中没有),然后可以创建基于登录名的用户名。为每一个用户名分配具体的权限。换句话来说,登录名是登录数据库的权限而用户名是对数据库的操作的权限。SQL Server 中使用映射可以把对各登录名中的用户映射到数据库对象中。

Read more

(CSAPP) – 攻击实验

Attacklab

实验包的下载不再多说,这个实验分为两个部分代码注入和 ROP 攻击。

Read more