Deep Reinforcement Learning

强化学习在新版课程中已经有讲解了，这里是老版课程的笔记，其中介绍了 PPO 以及 Deep Q Learning 的 RL 方法。关于 RL 的基本知识，这里就不再重复了。

# 1. RL 中的困难

RL 中主要有两个难点：

Reward delay：一个 game 中，很多 action 并不能立刻取得游戏分数，但对 Actor 在之后取得游戏分数至关重要。比如 space invader 游戏中，左右移动并不会获得分数，只有 fire 动作会获得分数，如果仅仅将游戏奖励当作 RL 的 reward，那训练的 Actor 会倾向于一直 fire 而不在左右移动。
Agent’s actions affect the subsequent data it receives：Actor 的 action 会影响它接下来所看到的画面，所以在 RL 中，让 Actor 能探索没有做过的行为，是一件很重要的事情。

# 2. Outline

# 2.1 Policy-based 和 Valued-based

![image-20241003102359101](/Users/yubin/Pictures/typora/60.Deep Reinforcement Learning/image-20241003102359101.png)

在 Policy-based 的方法中，会 learn 一个负责做事情的 Actor
在 Valued-based 的方法中，会 learn 一个不做事情的 Critic，它专门批评
要把 Actor 和 Critic 加起来的，叫做 Actor-Critic 方法

截止上课时，当前最新的 A3C 就是 Asynchronous Advantage Actor-Critic 方法。

# 2.2 RL 也是寻找一个 Function

RL 中的 Actor 在决定采取 action 时，其实就是：。Actor 就是这里面的，也就是我们想寻找的 function。

有些 paper 中也称这里面的 Actor 为 Policy

RL 的过程可以看成三步：

Neural network as Actor
决定一个 Actor 的好坏
选一个最好的 Actor：Gradient Ascent

# 1）Neural network as Actor

相比于 lookup table，使用 NN 作为 actor 能够具有更好的泛化性。

# 2）决定一个 Actor 的好坏

这里用 actor 表示具有 parameter 的 network，使用 s 表示 observation

让 actor 去玩一个 game，用表示 total reward。

对于同一个 actor，尽管每次采取相同的 actions，也有可能得到不同的 total reward。所以我们定义表示 expected value of 。

所以， 就衡量了 actor 的好坏。

怎样计算呢？

一个 episode 可以视为一个 trajectory ，它是一个由 observation、action、reward 交替出现而形成的 sequence。

当一个 actor 确定后，出现的概率也就确定了，每一次 play game 都相当于从这个概率中做一次采样，这个概率可以写成。

可以想象，不同的人来玩同一个游戏，得到的 trajectory 大概率服从的概率分布也是不同的

这样，expected value 就可以这样计算了：

理论上，可以 sum over all possible trajectory，但实际中，你只能让 actor 去 play game N 次，得到 N 个 trajectory ，也就相当于从中 sample 出 trajectory N 次。

# 3）选一个最好的 function：Gradient Ascent

既然知道了怎样衡量 actor，那就可以选出一个最好的 actor。

做法就是：Gradient Ascent

这里的的微分怎样计算呢？经过推导：

除此之外，可能还需要给公式中的减去一个 baseline 来标准化，从而让他有正有负。

# 3. PPO

# 3.1 on-policy 到 off-policy

on-policy 和 off-policy 两种 training 方法的区别如下：

on policy：The agent learned and the agent interacting with the environment is the same.
off policy：The agent learned and the agent interacting with the environment is different.

在 on-policy 方法中，我们会使用 actor 去收集这一轮的数据，然后更新网络参数，一旦这个网络参数被更新，那下一轮就需要重新再次收集数据。而 collect data 的过程很耗费时间，导致 on-policy 方法的训练速度较慢。

思路：使用另一个 actor 去 sample 数据，然后用于更新。由于是 fixed，所以可以重复利用 sample data。

# 3.2 Importance Sampling

在具体讲解之前，需要先看一个比较泛用的技术：Importance Sampling。

我们在计算 f(x) 在概率分布 p(x) 下的期望时，往往可以从 p(x) 概率分布中采样出一堆，然后计算这些样本的 f(x) 的均值，作为对期望的估计：

但如果我们不能从 p(x) 概率分布中做采样的话，那这里就不能这样计算了。可以使用一个技巧做一下转换：

可以看到经过转换，期望的计算只需要能够从另外一个分布 q(x) 中做采样就好了，而不需要从 p(x) 做采样。

尽管理论上可以这么等价，但是在实际中并不能随便选一个 q(x) 概率分布，而是要求 q(x) 与 p(x) 不能差太多。感性上的原因是：以上公式中计算期望是等价的，但这两个的方差却是不同的，当方差差距过大的时候，采样数据量不足的话可能会让结果出现很严重的偏差。因为我们计算期望不是直接计算的，而是通过采样来估计的，方差差距过大会让这种估计变得很不稳定。