高级主题 返回上层目录 强化学习前景 基于模型的强化学习 稀疏奖励Sparse Reward 混合动作空间Hybrid Action Space MCTS+RL 模仿学习 Sim2Real从仿真器到现实环境的迁移 MARL多智能体强化学习 HARL异质多智能体强化学习(Heterogeneous-Agent Reinforcement Learning) Offline RL离线强化学习 Transformer+RL 决策大模型 MMRL多模态强化学习 LLM+RL DiffusionModel+RL