Skip to content

Commit

Permalink
polish(nyz): polish policy docs
Browse files Browse the repository at this point in the history
  • Loading branch information
PaParaZz1 committed Jul 31, 2023
1 parent 642a034 commit 1d86ca8
Show file tree
Hide file tree
Showing 5 changed files with 16 additions and 7 deletions.
8 changes: 7 additions & 1 deletion source/12_policies/index_zh.rst
Original file line number Diff line number Diff line change
Expand Up @@ -65,4 +65,10 @@
:maxdepth: 2
:caption: 基于模型的强化学习(Model-Based RL)

mbpo
mbpo_zh

.. toctree::
:maxdepth: 2
:caption: 泛化

plr_zh
6 changes: 3 additions & 3 deletions source/12_policies/mbpo_zh.rst
Original file line number Diff line number Diff line change
Expand Up @@ -3,7 +3,7 @@ MBPO

概述
---------
Model-based policy optimization (MBPO) 首次在论文 `When to Trust Your Model: Model-Based Policy Optimization <https://arxiv.org/abs/1906.08253>`_中被提出
Model-based policy optimization (MBPO) 首次在论文 `When to Trust Your Model: Model-Based Policy Optimization <https://arxiv.org/abs/1906.08253>`_ 中被提出
MBPO 利用模型生成的短轨迹,并保证每一步的单调提升。
具体来说,MBPO 通过训练模型集合来拟合真实环境的 transition ,并利用它生成从真实环境状态开始的短轨迹来进行策略提升。
对于 RL 策略的选择,MBPO 使用 SAC 作为其 RL 的部分。
Expand All @@ -26,7 +26,7 @@ MBPO 利用模型生成的短轨迹,并保证每一步的单调提升。
---------------------------

预测模型(Predictive Model)
:::::::::::::::::
::::::::::::::::::::::::::::

MBPO 利用高斯神经网络集合(ensemble of gaussian neural network),集合中的每个成员都是:

Expand All @@ -42,7 +42,7 @@ MBPO 利用高斯神经网络集合(ensemble of gaussian neural network),
策略优化(Policy Optimization)
::::::::::::::::::::
:::::::::::::::::::::::::::::::

策略评估步骤(Policy evaluation step):

Expand Down
5 changes: 3 additions & 2 deletions source/12_policies/qmix_zh.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@ QMIX 是 `VDN(Sunehag et al. 2017) <https://arxiv.org/abs/1706.05296>`_ 的非

核心要点
-------------
1. QMIX 使用 **集中式训练与分散式执行(*centralized training with decentralized execution)**的范式。
1. QMIX 使用 **集中式训练与分散式执行(centralized training with decentralized execution)** 的范式。

2. QMIX 是一种 **无模型(model-free)、基于价值(value-based)、异策略(off-policy)、多智能体(multi-agent)** 的强化学习方法。

Expand Down Expand Up @@ -116,6 +116,7 @@ Benchmark
P.S.:

1. 上述结果是通过在五个不同的随机种子 (0, 1, 2, 3, 4) 上运行相同的配置获得的。

2. 对于像 QMIX 这样的多智能体离散动作空间算法,通常使用 SMAC 环境集进行测试,并通常通过最高平均奖励训练 10M ``env_step`` 进行评估。
有关 SMAC 的更多详细信息,请参阅 SMAC Env 教程 `SMAC Env Tutorial <../13_envs/smac_zh.html>`_ 。

Expand All @@ -133,4 +134,4 @@ P.S.:
----------------------------
- pymarl_

.. _pymarl: https://github.com/oxwhirl/pymarl/blob/master/src/config/algs/qmix.yaml
.. _pymarl: https://github.com/oxwhirl/pymarl/blob/master/src/config/algs/qmix.yaml
3 changes: 2 additions & 1 deletion source/12_policies/sql_zh.rst
Original file line number Diff line number Diff line change
Expand Up @@ -113,6 +113,7 @@ SQL 可以与以下内容结合使用:
默认配置被定义如下:

.. autoclass:: ding.policy.sql.SQLPolicy
:noindex:


基准
Expand Down Expand Up @@ -158,4 +159,4 @@ SQL 可以与以下内容结合使用:
----------------------------
- `SQL release repo`_

.. _`SQL release repo`: https://github.com/rail-berkeley/softlearning
.. _`SQL release repo`: https://github.com/rail-berkeley/softlearning
1 change: 1 addition & 0 deletions source/12_policies/td3_zh.rst
Original file line number Diff line number Diff line change
Expand Up @@ -126,6 +126,7 @@ TD3 可以与以下技术相结合使用:
默认配置定义如下:

.. autoclass:: ding.policy.td3.TD3Policy
:noindex:

1. 模型

Expand Down

0 comments on commit 1d86ca8

Please sign in to comment.