DDPG 算法

博主： Jimmy
发布时间：2024 年 12 月 13 日
1626 次浏览
暂无评论
9621字数
分类：强化学习

创建时间: 2024/12/2 12:45:16
作者: 蜡笔大新
笔记类型: 强化学习

简介

DDPG（Deep Deterministic Policy Gradient）是一种基于 Actor-Critic 结构的深度强化学习算法。传统的 Q-Learning 只能处理离散状态和动作，DQN 能处理连续状态和离散动作，而DDPG则解决了在连续状态和动作空间下的强化学习问题。DDPG 与梯度策略算法系列中的 REINFORCE 算法有所不同：REINFORCE 提供随机策略，而 DDPG 提供确定性策略（Deterministic Policy）。具体来说，非确定性策略 $\pi_\theta$ 输出每个动作的概率（对于连续动作则是概率分布曲线），可以通过 $\epsilon$ 策略或选择最高概率的动作来决策；而确定性策略则直接输出具体动作，记作 $a=\mu_\theta (s)$。由于 DDPG 的确定性特征限制了其探索能力，因此算法中添加了随机噪声来增强探索。

网络

Actor

与传统 Actor-Critic 算法中的 Actor 类似，DDPG 中的 Actor 也是一个神经网络，区别在于神经网络和激活函数的设置不一样。DDPG 的 Actor 通常最后一层直接输出一个具体值，对于连续动作空间，可能会使用特定的激活函数限制输出范围，例如：

Tanh 激活函数：限制输出在 [-1, 1]。
线性输出：直接输出在连续范围内的值。
最后会输出一个网络认为的价值期望最高的动作，输出维度等于动作空间的维度。

Critic

DDPG 的 Critic 网络与 DQN 的 Q 网络和传统 AC 的 Critic 网络有明显区别。DQN 的 Q 网络输入状态后输出所有动作的 Q 值，这种方式只适用于离散动作问题，无法处理连续动作空间。传统 AC 算法中的 Critic 使用神经网络来估计状态的 V 值。而 DDPG 的 Critic 则采用神经网络同时接收状态和动作作为输入，用于预估 Q 值。

更新

网络参数更新的时间节点主要是在经验池满了之后，随机采样经验池的经验进行更新，通过这种机制能够有效减少样本的时间相关性，避免模型过度依赖于某些特定的样本，使得训练数据更具多样性，增强了策略在不同场景中的泛化能力，提升模型的训练稳定性。

Actor

Actor 网络主要使用神经网络输出当前状态下价值期望最高的动作，其优化的目标就是最大化 Critic 网络的 Q 值，更新主要是通过 Critic 网络输出的 Q 值进行梯度上升。

Critic

Critic 网络的损失函数是当前 Q 值和目标 Q 值的[[均方误差（MSE）]]。其更新目标是最小化这个均方误差，通过梯度下降来更新参数。

MSE公式

$$ L(\theta^Q) = \frac{1}{N} \sum_{i=1}^N \left( Q_{\text{target}, i} - Q(s_i, a_i|\theta^Q) \right)^2 $$

目标 Q 值的计算

$$ Q_{\text{target}, i} = r_i + \gamma (1 - \text{done}_i) Q'(s'_i, \mu'(s'_i|\theta^{\mu'})|\theta^{Q'}) $$

这个公式其实就是贝尔曼公式的变种。

其中：
$Q_{\text{target}, i}$ 表示目标网络的 Q 值。从当前状态 $s_i$ 和动作 $a_i$ 开始，未来累积奖励的估计值。
$r_i$ 表示智能体在当前状态 $s_i$ 执行动作 $a_i$ 后，从环境中获得的奖励
$\gamma$ 表示折扣因子
$done_i$ 表示当前状态是否是终止状态（0代表未终止，1代表终止）
$\mu'(s'_i|\theta^{\mu'})$ 代表目标 Actor 网络根据 $\theta^{Q'}$ 软更新参数 $\theta^{Q}$ 的情况下，根据下一个状态 $s'_i$ 生成的动作
$Q{\prime}(s{\prime}_i, a{\prime}|\theta^{Q{\prime}})$ 表示目标 Critic 网络根据下一个状态和下一个动作生成的 Q 值

至此，重新梳理一下整个目标 Q 值的计算：

获取当前状态 $s_t$ 和当前动作 $a_t$
当前状态 $s_t$ 执行当前动作 $a_t$，获取下一个状态 $s_{t+1}$
将下一个状态 $s_{t+1}$ 输入进目标 Actor 网络，获取下一个动作 $a_{t+1}$
将下一个状态 $s_{t+1}$ 和下一个动作 $a_{t+1}$ 输入进目标 Critic 网络，获取 Q 值
将目标 Critic 网络生成的 Q 值与折扣因子、完成状态、当前状态 $s_t$ 执行当前动作 $a_t$ 获得的奖励一起代入公式计算目标 Q 值

软更新

软更新一般是在随机采样更新完当前 Actor 和 Critic 网络后，对两个目标网络利用公式进行的。由于参数的设置，其实际效果就是每次只更新当前网络的非常小的部分，绝大多数都还是由原来的目标网络参数构成。

$$ \theta^{Q'} \leftarrow \tau \theta^Q + (1 - \tau) \theta^{Q'} $$

$$ \theta^{\mu'} \leftarrow \tau \theta^\mu + (1 - \tau) \theta^{\mu'} $$

其中：
$\theta^{Q{\prime}}$：目标 Critic 网络的参数
$\theta^{Q}$：当前 Critic 网络的参数
$\theta^{\mu{\prime}}$：目标 Actor 网络的参数
$\theta^{\mu}$：当前 Actor 网络的参数
$\tau$：软更新系数，通常取值很小（如 $\tau$ = 0.001）

其它亮点

归一化

在 DDPG 的原版论文中，提到了批量归一化。

批量归一化有助于减小训练中的 协方差偏移（covariance shift），确保每一层接收到归一化的输入数据。在低维情况下，批量归一化被应用于状态输入、策略网络的所有层，以及价值网络中动作输入之前的所有层。
使用批量归一化后，可以跨不同任务（任务特征和单位类型不同）进行有效学习，而无需手动调整特征范围。

噪声

在 DDPG 的原版论文中，提到了添加噪声来增加探索性。由于 DDPG 的 Actor 网络输出的是确定性动作，因此不能像以往的 DQN 一样通过 $\epsilon$ 贪婪策略来探索。原文采用的是Ornstein-Uhlenbeck 噪声，这是一种时间相关的噪声,用于在具有惯性的物理控制问题中提升探索效率。
在这个公式中，主要是对 Actor 网络生成的动作添加一些随机的噪声 $N$ 来干扰，在解决连续动作时效果比较显著。解决连续动作时一般输出一个数值，例如机器人的手臂转动角度，通过添加噪声可以更好的实现探索效果。

$$ \mu'(s_t) = \mu(s_t \mid \theta_t^\mu) + \mathcal{N} $$

总体流程

DDPG 的训练总体流程主要分为交互、更新，分别在上文进行了阐述。

大部分时间里，网络中的智能体与环境进行交互，获得奖励、动作等状态，产生经验，将经验放在经验池里。
当经验池满了之后，取出部分经验开始更新。
使用 MSE 作为 Critic 的损失函数，计算当前 Q 值和目标 Q 值的误差，并用这个误差梯度下降更新 Critic 的参数。
使用 Critic 的 Q 值梯度上升更新 Actor 的参数。
利用软更新公式对目标 Actor 网络和目标 Critic 网络进行软更新。
若未训练完成则继续与环境交互。
总体流程图如下：

优缺点分析

优点

适用于连续动作空间
样本效率较高
结合了值函数和策略梯度方法的优势

缺点

对超参数较为敏感
训练不够稳定
可能存在过估计问题

代码

import random  
import gym  
import numpy as np  
import torch  
import torch.nn.functional as F  
import matplotlib.pyplot as plt  
import rl_utils  
  
  
class PolicyNet(torch.nn.Module):  
    def __init__(self, state_dim, hidden_dim, action_dim, action_bound):  
        super(PolicyNet, self).__init__()  
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)  
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)  
        self.action_bound = action_bound  # action_bound是环境可以接受的动作最大值  
  
    def forward(self, x):  
        x = F.relu(self.fc1(x))  
        return torch.tanh(self.fc2(x)) * self.action_bound  
  
  
class QValueNet(torch.nn.Module):  
    def __init__(self, state_dim, hidden_dim, action_dim):  
        super(QValueNet, self).__init__()  
        self.fc1 = torch.nn.Linear(state_dim + action_dim, hidden_dim)  
        self.fc2 = torch.nn.Linear(hidden_dim, hidden_dim)  
        self.fc_out = torch.nn.Linear(hidden_dim, 1)  
  
    def forward(self, x, a):  
        cat = torch.cat([x, a], dim=1)  # 拼接状态和动作  
        x = F.relu(self.fc1(cat))  
        x = F.relu(self.fc2(x))  
        return self.fc_out(x)  
  
  
class DDPG:  
    """ DDPG算法 """  
    def __init__(self, state_dim, hidden_dim, action_dim, action_bound, sigma, actor_lr, critic_lr, tau, gamma, device):  
        self.actor = PolicyNet(state_dim, hidden_dim, action_dim, action_bound).to(device)  
        self.critic = QValueNet(state_dim, hidden_dim, action_dim).to(device)  
        self.target_actor = PolicyNet(state_dim, hidden_dim, action_dim, action_bound).to(device)  
        self.target_critic = QValueNet(state_dim, hidden_dim, action_dim).to(device)  
        # 初始化目标价值网络并设置和价值网络相同的参数  
        self.target_critic.load_state_dict(self.critic.state_dict())  
        # 初始化目标策略网络并设置和策略相同的参数  
        self.target_actor.load_state_dict(self.actor.state_dict())  
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)  
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr)  
        self.gamma = gamma  
        self.sigma = sigma  # 高斯噪声的标准差,均值直接设为0  
        self.tau = tau  # 目标网络软更新参数  
        self.action_dim = action_dim  
        self.device = device  
  
    def take_action(self, state):  
        state = torch.tensor([state], dtype=torch.float).to(self.device)  
        action = self.actor(state).item()  
        # 给动作添加噪声，增加探索  
        action = action + self.sigma * np.random.randn(self.action_dim)  
        return action  
  
    def soft_update(self, net, target_net):  
        for param_target, param in zip(target_net.parameters(), net.parameters()):  
            param_target.data.copy_(param_target.data * (1.0 - self.tau) + param.data * self.tau)  
  
    def update(self, transition_dict):  
        states = torch.tensor(transition_dict['states'], dtype=torch.float).to(self.device)  
        actions = torch.tensor(transition_dict['actions'], dtype=torch.float).view(-1, 1).to(self.device)  
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1, 1).to(self.device)  
        next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float).to(self.device)  
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1, 1).to(self.device)  
  
        next_q_values = self.target_critic(next_states, self.target_actor(next_states))  
        q_targets = rewards + self.gamma * next_q_values * (1 - dones)  
        critic_loss = torch.mean(F.mse_loss(self.critic(states, actions), q_targets))  
        self.critic_optimizer.zero_grad()  
        critic_loss.backward()  
        self.critic_optimizer.step()  
  
        actor_loss = -torch.mean(self.critic(states, self.actor(states)))  
        self.actor_optimizer.zero_grad()  
        actor_loss.backward()  
        self.actor_optimizer.step()  
  
        self.soft_update(self.actor, self.target_actor)  # 软更新策略网络  
        self.soft_update(self.critic, self.target_critic)  # 软更新价值网络  
  
  
actor_lr = 3e-4  
critic_lr = 3e-3  
num_episodes = 1000  
hidden_dim = 64  
gamma = 0.98  
tau = 0.005  # 软更新参数  
buffer_size = 10000  
minimal_size = 1000  
batch_size = 64  
sigma = 0.01  # 高斯噪声标准差  
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")  
  
env_name = 'Pendulum-v1'  
env = gym.make(env_name)  
random.seed(0)  
np.random.seed(0)  
env.seed(0)  
torch.manual_seed(0)  
replay_buffer = rl_utils.ReplayBuffer(buffer_size)  
state_dim = env.observation_space.shape[0]  
action_dim = env.action_space.shape[0]  
action_bound = env.action_space.high[0]  # 动作最大值  
agent = DDPG(state_dim, hidden_dim, action_dim, action_bound, sigma, actor_lr, critic_lr, tau, gamma, device)  
  
return_list = rl_utils.train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size)  
  
episodes_list = list(range(len(return_list)))  
plt.plot(episodes_list, return_list)  
plt.xlabel('Episodes')  
plt.ylabel('Returns')  
plt.title('DDPG on {}'.format(env_name))  
plt.show()  
  
mv_return = rl_utils.moving_average(return_list, 9)  
plt.plot(episodes_list, mv_return)  
plt.xlabel('Episodes')  
plt.ylabel('Returns')  
plt.title('DDPG on {}'.format(env_name))  
plt.show()

结果

代码在 pendulum-v1环境下表现尚可，第一次跑了200轮的训练，虽然整体趋势在上升，但是奖励还是比较低的，继续训练直1000轮，可以看到模型的奖励从300轮左右开始就稳定在-200左右，总体表现良好。

最后修改：2024 年 12 月 13 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

若依（前后端分离）使用
评论数： 3
插入排序
评论数： 0
交换排序
评论数： 0
选择排序
评论数： 0
服务器中Docker使用指南
评论数： 0

odfsttgflz
博主太厉害了！
骗子
我也可以看见
大名鼎鼎的匿名人士
该评论仅登录用户及评论双方可见

数据库名词解释
评论数： 0
考研一年部分心得
评论数： 0
DQN
评论数： 0
若依实现消息通知
评论数： 0
极大似然估计
评论数： 0

DDPG 算法

Jimmy • 2024 年 12 月 13 日

<p>创建时间: 2024/12/2 12:45:16<br>作者: 蜡笔大新<br>笔记类型: 强化学习</p><h1>简介</h1><p>DDPG（Deep Deterministic Policy Gradient）是一种基于 Actor-Critic 结构的深度强化学习算法。传统的 Q-Learning 只能处理离散状态和动作，DQN 能处理连续状态和离散动作，而<span style='color:Red'>DDPG则解决了在连续状态和动作空间下的强化学习问题</span>。DDPG 与梯度策略算法系列中的 REINFORCE 算法有所不同：REINFORCE 提供随机策略，而 DDPG 提供确定性策略（Deterministic Policy）。具体来说，非确定性策略 $\pi_\theta$ 输出每个动作的概率（对于连续动作则是概率分布曲线），可以通过 $\epsilon$ 策略或选择最高概率的动作来决策；而确定性策略则直接输出具体动作，记作 $a=\mu_\theta (s)$。由于 DDPG 的确定性特征限制了其探索能力，因此算法中添加了随机噪声来增强探索。</p><h1>网络</h1><h2>Actor</h2><p>与传统 Actor-Critic 算法中的 Actor 类似，DDPG 中的 Actor 也是一个神经网络，区别在于神经网络和激活函数的设置不一样。DDPG 的 Actor 通常最后一层直接输出一个具体值，对于连续动作空间，可能会使用特定的激活函数限制输出范围，例如：</p><ul><li><strong>Tanh 激活函数</strong>：限制输出在 [-1, 1]。</li><li><strong>线性输出</strong>：直接输出在连续范围内的值。<br>最后会输出一个网络认为的价值期望最高的动作，输出维度等于动作空间的维度。</li></ul><h2>Critic</h2><p>DDPG 的 Critic 网络与 DQN 的 Q 网络和传统 AC 的 Critic 网络有明显区别。DQN 的 Q 网络输入状态后输出所有动作的 Q 值，这种方式只适用于离散动作问题，无法处理连续动作空间。传统 AC 算法中的 Critic 使用神经网络来估计状态的 V 值。而 DDPG 的 Critic 则采用神经网络同时接收状态和动作作为输入，用于预估 Q 值。<br><img src="https://bc-bucket-1311264881.cos.ap-shanghai.myqcloud.com/img/202412131908175.png" alt="" title="" style=""></p><h1>更新</h1><p>网络参数更新的时间节点主要是在经验池满了之后，随机采样经验池的经验进行更新，通过这种机制能够有效减少样本的时间相关性，避免模型过度依赖于某些特定的样本，使得训练数据更具多样性，增强了策略在不同场景中的泛化能力，提升模型的训练稳定性。</p><h2>Actor</h2><p>Actor 网络主要使用神经网络输出当前状态下价值期望最高的动作，其优化的目标就是最大化 Critic 网络的 Q 值，更新主要是通过 Critic 网络输出的 Q 值进行梯度上升。</p><h2>Critic</h2><p>Critic 网络的损失函数是当前 Q 值和目标 Q 值的[[均方误差（MSE）]]。其更新目标是最小化这个均方误差，通过梯度下降来更新参数。</p><h3>MSE公式</h3><p>$$
L(\theta^Q) = \frac{1}{N} \sum_{i=1}^N \left( Q_{\text{target}, i} - Q(s_i, a_i|\theta^Q) \right)^2
$$</p><h3>目标 Q 值的计算</h3><p>$$
Q_{\text{target}, i} = r_i + \gamma (1 - \text{done}_i) Q&#039;(s&#039;_i, \mu&#039;(s&#039;_i|\theta^{\mu&#039;})|\theta^{Q&#039;})
$$</p><p>这个公式其实就是贝尔曼公式的变种。</p><p><div class="tip inlineBlock info">

<br>其中：<br>$Q_{\text{target}, i}$ 表示目标网络的 Q 值。从当前状态 $s_i$ 和动作 $a_i$ 开始，未来累积奖励的估计值。<br>$r_i$ 表示智能体在当前状态 $s_i$ 执行动作 $a_i$ 后，从环境中获得的奖励<br>$\gamma$ 表示折扣因子<br>$done_i$ 表示当前状态是否是终止状态（0代表未终止，1代表终止）<br>$\mu&#039;(s&#039;_i|\theta^{\mu&#039;})$ 代表目标 Actor 网络根据 $\theta^{Q&#039;}$ 软更新参数 $\theta^{Q}$ 的情况下，根据下一个状态 $s&#039;_i$ 生成的动作<br> $Q{\prime}(s{\prime}_i, a{\prime}|\theta^{Q{\prime}})$ 表示目标 Critic 网络根据下一个状态和下一个动作生成的 Q 值</p><p>
</div></p><p>至此，重新梳理一下整个目标 Q 值的计算：</p><ol><li>获取当前状态 $s_t$ 和当前动作 $a_t$</li><li>当前状态 $s_t$ 执行当前动作 $a_t$，获取下一个状态 $s_{t+1}$</li><li>将下一个状态 $s_{t+1}$ 输入进目标 Actor 网络，获取下一个动作 $a_{t+1}$</li><li>将下一个状态 $s_{t+1}$ 和下一个动作 $a_{t+1}$ 输入进目标 Critic 网络，获取 Q 值</li><li>将目标 Critic 网络生成的 Q 值与折扣因子、完成状态、当前状态 $s_t$ 执行当前动作 $a_t$ 获得的奖励一起代入公式计算目标 Q 值</li></ol><h3>软更新</h3><p>软更新一般是在随机采样更新完当前 Actor 和 Critic 网络后，对两个目标网络利用公式进行的。由于参数的设置，其实际效果就是每次只更新当前网络的非常小的部分，绝大多数都还是由原来的目标网络参数构成。</p><p>$$
\theta^{Q&#039;} \leftarrow \tau \theta^Q + (1 - \tau) \theta^{Q&#039;}
$$</p><p>$$
\theta^{\mu&#039;} \leftarrow \tau \theta^\mu + (1 - \tau) \theta^{\mu&#039;}
$$</p><p><div class="tip inlineBlock info">

<br>其中：<br>$\theta^{Q{\prime}}$：目标 Critic 网络的参数<br>$\theta^{Q}$：当前 Critic 网络的参数<br>$\theta^{\mu{\prime}}$：目标 Actor 网络的参数<br>$\theta^{\mu}$：当前 Actor 网络的参数<br>$\tau$：软更新系数，通常取值很小（如 $\tau$ = 0.001）</p><p>
</div></p><h1>其它亮点</h1><h2>归一化</h2><p>在 DDPG 的原版论文中，提到了批量归一化。</p><blockquote>批量归一化有助于减小训练中的 <strong>协方差偏移（covariance shift）</strong>，确保每一层接收到归一化的输入数据。在低维情况下，批量归一化被应用于状态输入、策略网络的所有层，以及价值网络中动作输入之前的所有层。<br>使用批量归一化后，可以跨不同任务（任务特征和单位类型不同）进行有效学习，而无需手动调整特征范围。</blockquote><h2>噪声</h2><p>在 DDPG 的原版论文中，提到了添加噪声来增加探索性。由于 DDPG 的 Actor 网络输出的是确定性动作，因此不能像以往的 DQN 一样通过 $\epsilon$ 贪婪策略来探索。原文采用的是Ornstein-Uhlenbeck 噪声，这是一种时间相关的噪声,用于在具有惯性的物理控制问题中提升探索效率。<br>在这个公式中，主要是对 Actor 网络生成的动作添加一些随机的噪声 $N$ 来干扰，在解决连续动作时效果比较显著。解决连续动作时一般输出一个数值，例如机器人的手臂转动角度，通过添加噪声可以更好的实现探索效果。</p><p>$$
\mu&#039;(s_t) = \mu(s_t \mid \theta_t^\mu) + \mathcal{N}
$$</p><h1>总体流程</h1><p>DDPG 的训练总体流程主要分为交互、更新，分别在上文进行了阐述。</p><ol><li>大部分时间里，网络中的智能体与环境进行交互，获得奖励、动作等状态，产生经验，将经验放在经验池里。</li><li>当经验池满了之后，取出部分经验开始更新。</li><li>使用 MSE 作为 Critic 的损失函数，计算当前 Q 值和目标 Q 值的误差，并用这个误差梯度下降更新 Critic 的参数。</li><li>使用 Critic 的 Q 值梯度上升更新 Actor 的参数。</li><li>利用软更新公式对目标 Actor 网络和目标 Critic 网络进行软更新。</li><li>若未训练完成则继续与环境交互。<br>总体流程图如下：<br><img src="https://bc-bucket-1311264881.cos.ap-shanghai.myqcloud.com/img/202412131916572.jpg" alt="" title="" style=""></li></ol><h1>优缺点分析</h1><h3>优点</h3><ul><li>适用于连续动作空间</li><li>样本效率较高</li><li>结合了值函数和策略梯度方法的优势</li></ul><h3>缺点</h3><ul><li>对超参数较为敏感</li><li>训练不够稳定</li><li>可能存在过估计问题</li></ul><h1>代码</h1><pre><code class="lang-Python">import random  
import gym  
import numpy as np  
import torch  
import torch.nn.functional as F  
import matplotlib.pyplot as plt  
import rl_utils  
  
  
class PolicyNet(torch.nn.Module):  
    def __init__(self, state_dim, hidden_dim, action_dim, action_bound):  
        super(PolicyNet, self).__init__()  
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)  
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)  
        self.action_bound = action_bound  # action_bound是环境可以接受的动作最大值  
  
    def forward(self, x):  
        x = F.relu(self.fc1(x))  
        return torch.tanh(self.fc2(x)) * self.action_bound  
  
  
class QValueNet(torch.nn.Module):  
    def __init__(self, state_dim, hidden_dim, action_dim):  
        super(QValueNet, self).__init__()  
        self.fc1 = torch.nn.Linear(state_dim + action_dim, hidden_dim)  
        self.fc2 = torch.nn.Linear(hidden_dim, hidden_dim)  
        self.fc_out = torch.nn.Linear(hidden_dim, 1)  
  
    def forward(self, x, a):  
        cat = torch.cat([x, a], dim=1)  # 拼接状态和动作  
        x = F.relu(self.fc1(cat))  
        x = F.relu(self.fc2(x))  
        return self.fc_out(x)  
  
  
class DDPG:  
    &quot;&quot;&quot; DDPG算法 &quot;&quot;&quot;  
    def __init__(self, state_dim, hidden_dim, action_dim, action_bound, sigma, actor_lr, critic_lr, tau, gamma, device):  
        self.actor = PolicyNet(state_dim, hidden_dim, action_dim, action_bound).to(device)  
        self.critic = QValueNet(state_dim, hidden_dim, action_dim).to(device)  
        self.target_actor = PolicyNet(state_dim, hidden_dim, action_dim, action_bound).to(device)  
        self.target_critic = QValueNet(state_dim, hidden_dim, action_dim).to(device)  
        # 初始化目标价值网络并设置和价值网络相同的参数  
        self.target_critic.load_state_dict(self.critic.state_dict())  
        # 初始化目标策略网络并设置和策略相同的参数  
        self.target_actor.load_state_dict(self.actor.state_dict())  
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)  
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr)  
        self.gamma = gamma  
        self.sigma = sigma  # 高斯噪声的标准差,均值直接设为0  
        self.tau = tau  # 目标网络软更新参数  
        self.action_dim = action_dim  
        self.device = device  
  
    def take_action(self, state):  
        state = torch.tensor([state], dtype=torch.float).to(self.device)  
        action = self.actor(state).item()  
        # 给动作添加噪声，增加探索  
        action = action + self.sigma * np.random.randn(self.action_dim)  
        return action  
  
    def soft_update(self, net, target_net):  
        for param_target, param in zip(target_net.parameters(), net.parameters()):  
            param_target.data.copy_(param_target.data * (1.0 - self.tau) + param.data * self.tau)  
  
    def update(self, transition_dict):  
        states = torch.tensor(transition_dict[&#039;states&#039;], dtype=torch.float).to(self.device)  
        actions = torch.tensor(transition_dict[&#039;actions&#039;], dtype=torch.float).view(-1, 1).to(self.device)  
        rewards = torch.tensor(transition_dict[&#039;rewards&#039;], dtype=torch.float).view(-1, 1).to(self.device)  
        next_states = torch.tensor(transition_dict[&#039;next_states&#039;], dtype=torch.float).to(self.device)  
        dones = torch.tensor(transition_dict[&#039;dones&#039;], dtype=torch.float).view(-1, 1).to(self.device)  
  
        next_q_values = self.target_critic(next_states, self.target_actor(next_states))  
        q_targets = rewards + self.gamma * next_q_values * (1 - dones)  
        critic_loss = torch.mean(F.mse_loss(self.critic(states, actions), q_targets))  
        self.critic_optimizer.zero_grad()  
        critic_loss.backward()  
        self.critic_optimizer.step()  
  
        actor_loss = -torch.mean(self.critic(states, self.actor(states)))  
        self.actor_optimizer.zero_grad()  
        actor_loss.backward()  
        self.actor_optimizer.step()  
  
        self.soft_update(self.actor, self.target_actor)  # 软更新策略网络  
        self.soft_update(self.critic, self.target_critic)  # 软更新价值网络  
  
  
actor_lr = 3e-4  
critic_lr = 3e-3  
num_episodes = 1000  
hidden_dim = 64  
gamma = 0.98  
tau = 0.005  # 软更新参数  
buffer_size = 10000  
minimal_size = 1000  
batch_size = 64  
sigma = 0.01  # 高斯噪声标准差  
device = torch.device(&quot;cuda&quot;) if torch.cuda.is_available() else torch.device(&quot;cpu&quot;)  
  
env_name = &#039;Pendulum-v1&#039;  
env = gym.make(env_name)  
random.seed(0)  
np.random.seed(0)  
env.seed(0)  
torch.manual_seed(0)  
replay_buffer = rl_utils.ReplayBuffer(buffer_size)  
state_dim = env.observation_space.shape[0]  
action_dim = env.action_space.shape[0]  
action_bound = env.action_space.high[0]  # 动作最大值  
agent = DDPG(state_dim, hidden_dim, action_dim, action_bound, sigma, actor_lr, critic_lr, tau, gamma, device)  
  
return_list = rl_utils.train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size)  
  
episodes_list = list(range(len(return_list)))  
plt.plot(episodes_list, return_list)  
plt.xlabel(&#039;Episodes&#039;)  
plt.ylabel(&#039;Returns&#039;)  
plt.title(&#039;DDPG on {}&#039;.format(env_name))  
plt.show()  
  
mv_return = rl_utils.moving_average(return_list, 9)  
plt.plot(episodes_list, mv_return)  
plt.xlabel(&#039;Episodes&#039;)  
plt.ylabel(&#039;Returns&#039;)  
plt.title(&#039;DDPG on {}&#039;.format(env_name))  
plt.show()</code></pre><h2>结果</h2><p>代码在 pendulum-v1环境下表现尚可，第一次跑了200轮的训练，虽然整体趋势在上升，但是奖励还是比较低的，继续训练直1000轮，可以看到模型的奖励从300轮左右开始就稳定在-200左右，总体表现良好。<br><img src="https://bc-bucket-1311264881.cos.ap-shanghai.myqcloud.com/img/202412131917420.png" alt="" title="" style=""><br><img src="https://bc-bucket-1311264881.cos.ap-shanghai.myqcloud.com/img/202412131917516.png" alt="" title="" style=""></p>

简介

网络

Actor

Critic

更新

Actor

Critic

MSE公式

目标 Q 值的计算

软更新

其它亮点

归一化

噪声

总体流程

优缺点分析

优点

缺点

代码

结果

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

DDPG 算法

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款