Release v1.4

Latest

Latest

github-actions released this 08 Apr 13:49

e2e143f

变更日志 / Changelog

版本 v1.4

更新日志（本次发布）

2026.4.8

修复 issue-9：修正 RL_Learning-main/scripts/Chapter5_Monte Carlo Methods/MC_epsilon_greedy.py 中 Monte Carlo epsilon-greedy 控制实现的两处问题。

回报计算改为标准的逆序递推 G = gamma * G + reward，移除原先基于 episode.index(step) 的错位切片与重复累计逻辑，避免折扣回报被错误计算。
策略改进恢复为教材中的 epsilon-soft 更新公式，不再把策略退化为确定性的 greedy policy。
同时将 np.divide(..., where=num_visits != 0) 改为显式写入零值输出，避免未访问状态动作对产生未初始化的 qvalue。

2026.4.8

补全 issue-7 的修复：RL_Learning-main/scripts/Chapter5_Monte Carlo Methods/MC_Basic.py 中 episodes = [] 现在会在每个 (state, action) 上重新初始化。

避免不同状态动作对的 episode 被错误混合到同一个 Q(s,a) 估计中。
mc_basic_simple() 与 mc_basic_simple_GUI() 两处已同步修正。

2026.4.8

统一 RL_Learning-main 中多个教学脚本的 grid_env 导入方式，移除对 sys.path.append("..") 的相对路径依赖。

改为基于 Path(__file__).resolve().parent.parent 的绝对路径导入写法，提升不同启动目录下的运行稳定性。
涉及 Monte Carlo、Temporal-Difference、Value Approximation、Policy Gradient 章节的多个脚本。

完整历史记录请查看 .github/CHANGELOG.md。

多模块独立发布包

模块介绍

MADDPG_Continous
多智能体深度确定性策略梯度算法（连续动作空间版本），适用于连续控制场景的多智能体协同训练。
MATD3_Continous
多智能体双延迟深度确定性策略梯度算法，在MADDPG基础上增加了延迟更新和策略平滑机制。
HAPPO-MAPPO_Continous_Heterogeneous
异质智能体近端策略优化算法，支持不同类型智能体的混合训练场景。
MAPPO_Continous_Homogeneous
同质智能体近端策略优化算法，针对同类型智能体的高效训练优化。
RL_Learning-main
赵世钰老师强化学习基础教程合集，包含经典算法实现和示例代码。
hands_on_RL
动手学强化学习实践项目，通过Jupyter Notebook提供互动式学习体验。

使用说明

点击下方所需模块的ZIP文件下载
解压后阅读README.md获取详细使用指南
安装依赖：pip install -r requirements.txt

支持渠道

中文问题提交
许可证：MIT

Independent Modules Release

Available Modules

MADDPG_Continous
Multi-Agent Deep Deterministic Policy Gradient (continuous action space version) for cooperative multi-agent control.
MATD3_Continous
Multi-Agent Twin Delayed DDPG, featuring delayed updates and policy smoothing.
HAPPO-MAPPO_Continous_Heterogeneous
Heterogeneous Agent Proximal Policy Optimization for mixed-type agent scenarios.
MAPPO_Continous_Homogeneous
Homogeneous Agent Proximal Policy Optimization for efficient training of same-type agents.
RL_Learning-main
Fundamental RL tutorials with classic algorithm implementations.
hands_on_RL
Interactive reinforcement learning projects via Jupyter Notebooks.

Quick Start

Download the desired module ZIP below
Check README_en.md for detailed instructions
Install dependencies: pip install -r requirements.txt

Support

English Issues
License: MIT

Assets 8