polish(nyz): polish policy docs

timothijoe · Jul 31, 2023 · 1d86ca8 · 1d86ca8
1 parent 642a034
commit 1d86ca8
Show file tree

Hide file tree

Showing 5 changed files with 16 additions and 7 deletions.
diff --git a/source/12_policies/index_zh.rst b/source/12_policies/index_zh.rst
@@ -65,4 +65,10 @@
     :maxdepth: 2
     :caption: 基于模型的强化学习（Model-Based RL）
 
-    mbpo
+    mbpo_zh
+
+.. toctree::
+    :maxdepth: 2
+    :caption: 泛化
+
+    plr_zh
diff --git a/source/12_policies/mbpo_zh.rst b/source/12_policies/mbpo_zh.rst
@@ -3,7 +3,7 @@ MBPO
 
 概述
 ---------
-Model-based policy optimization (MBPO) 首次在论文 `When to Trust Your Model: Model-Based Policy Optimization <https://arxiv.org/abs/1906.08253>`_中被提出。
+Model-based policy optimization (MBPO) 首次在论文 `When to Trust Your Model: Model-Based Policy Optimization <https://arxiv.org/abs/1906.08253>`_ 中被提出。
 MBPO 利用模型生成的短轨迹，并保证每一步的单调提升。
 具体来说，MBPO 通过训练模型集合来拟合真实环境的 transition ，并利用它生成从真实环境状态开始的短轨迹来进行策略提升。
 对于 RL 策略的选择，MBPO 使用 SAC 作为其 RL 的部分。
@@ -26,7 +26,7 @@ MBPO 利用模型生成的短轨迹，并保证每一步的单调提升。
 ---------------------------
 
 预测模型（Predictive Model）
-:::::::::::::::::
+::::::::::::::::::::::::::::
 
 MBPO 利用高斯神经网络集合（ensemble of gaussian neural network），集合中的每个成员都是： 
 
@@ -42,7 +42,7 @@ MBPO 利用高斯神经网络集合（ensemble of gaussian neural network），
 
 
 策略优化（Policy Optimization）
-::::::::::::::::::::
+:::::::::::::::::::::::::::::::
 
 策略评估步骤（Policy evaluation step）：
 

diff --git a/source/12_policies/qmix_zh.rst b/source/12_policies/qmix_zh.rst
@@ -12,7 +12,7 @@ QMIX 是 `VDN(Sunehag et al. 2017) <https://arxiv.org/abs/1706.05296>`_ 的非
 
 核心要点
 -------------
-1. QMIX 使用 **集中式训练与分散式执行(*centralized training with decentralized execution)**的范式。
+1. QMIX 使用 **集中式训练与分散式执行(centralized training with decentralized execution)** 的范式。
 
 2. QMIX 是一种 **无模型(model-free)、基于价值(value-based)、异策略(off-policy)、多智能体(multi-agent)** 的强化学习方法。
 
@@ -116,6 +116,7 @@ Benchmark
 P.S.：
 
 1. 上述结果是通过在五个不同的随机种子 (0, 1, 2, 3, 4) 上运行相同的配置获得的。
+
 2. 对于像 QMIX 这样的多智能体离散动作空间算法，通常使用 SMAC 环境集进行测试，并通常通过最高平均奖励训练 10M ``env_step`` 进行评估。
 有关 SMAC 的更多详细信息，请参阅 SMAC Env 教程 `SMAC Env Tutorial <../13_envs/smac_zh.html>`_ 。
 
@@ -133,4 +134,4 @@ P.S.：
 ----------------------------
 - pymarl_
 
-.. _pymarl: https://github.com/oxwhirl/pymarl/blob/master/src/config/algs/qmix.yaml
+.. _pymarl: https://github.com/oxwhirl/pymarl/blob/master/src/config/algs/qmix.yaml
diff --git a/source/12_policies/sql_zh.rst b/source/12_policies/sql_zh.rst
@@ -113,6 +113,7 @@ SQL 可以与以下内容结合使用：
 默认配置被定义如下：
 
 .. autoclass:: ding.policy.sql.SQLPolicy
+   :noindex:
 
 
 基准
@@ -158,4 +159,4 @@ SQL 可以与以下内容结合使用：
 ----------------------------
 - `SQL release repo`_
 
-.. _`SQL release repo`: https://github.com/rail-berkeley/softlearning
+.. _`SQL release repo`: https://github.com/rail-berkeley/softlearning
diff --git a/source/12_policies/td3_zh.rst b/source/12_policies/td3_zh.rst
@@ -126,6 +126,7 @@ TD3 可以与以下技术相结合使用:
 默认配置定义如下:
 
 .. autoclass:: ding.policy.td3.TD3Policy
+   :noindex:
 
 1. 模型