变更日志 / Changelog
版本 v1.4
更新日志(本次发布)
- 修复 issue-9:修正
RL_Learning-main/scripts/Chapter5_Monte Carlo Methods/MC_epsilon_greedy.py中 Monte Carlo epsilon-greedy 控制实现的两处问题。
- 回报计算改为标准的逆序递推
G = gamma * G + reward,移除原先基于episode.index(step)的错位切片与重复累计逻辑,避免折扣回报被错误计算。 - 策略改进恢复为教材中的 epsilon-soft 更新公式,不再把策略退化为确定性的 greedy policy。
- 同时将
np.divide(..., where=num_visits != 0)改为显式写入零值输出,避免未访问状态动作对产生未初始化的qvalue。
- 补全 issue-7 的修复:
RL_Learning-main/scripts/Chapter5_Monte Carlo Methods/MC_Basic.py中episodes = []现在会在每个(state, action)上重新初始化。
- 避免不同状态动作对的 episode 被错误混合到同一个
Q(s,a)估计中。 mc_basic_simple()与mc_basic_simple_GUI()两处已同步修正。
- 统一
RL_Learning-main中多个教学脚本的grid_env导入方式,移除对sys.path.append("..")的相对路径依赖。
- 改为基于
Path(__file__).resolve().parent.parent的绝对路径导入写法,提升不同启动目录下的运行稳定性。 - 涉及 Monte Carlo、Temporal-Difference、Value Approximation、Policy Gradient 章节的多个脚本。
完整历史记录请查看
.github/CHANGELOG.md。
多模块独立发布包
模块介绍
-
MADDPG_Continous
多智能体深度确定性策略梯度算法(连续动作空间版本),适用于连续控制场景的多智能体协同训练。 -
MATD3_Continous
多智能体双延迟深度确定性策略梯度算法,在MADDPG基础上增加了延迟更新和策略平滑机制。 -
HAPPO-MAPPO_Continous_Heterogeneous
异质智能体近端策略优化算法,支持不同类型智能体的混合训练场景。 -
MAPPO_Continous_Homogeneous
同质智能体近端策略优化算法,针对同类型智能体的高效训练优化。 -
RL_Learning-main
赵世钰老师强化学习基础教程合集,包含经典算法实现和示例代码。 -
hands_on_RL
动手学强化学习实践项目,通过Jupyter Notebook提供互动式学习体验。
使用说明
- 点击下方所需模块的ZIP文件下载
- 解压后阅读README.md获取详细使用指南
- 安装依赖:
pip install -r requirements.txt
支持渠道
Independent Modules Release
Available Modules
-
MADDPG_Continous
Multi-Agent Deep Deterministic Policy Gradient (continuous action space version) for cooperative multi-agent control. -
MATD3_Continous
Multi-Agent Twin Delayed DDPG, featuring delayed updates and policy smoothing. -
HAPPO-MAPPO_Continous_Heterogeneous
Heterogeneous Agent Proximal Policy Optimization for mixed-type agent scenarios. -
MAPPO_Continous_Homogeneous
Homogeneous Agent Proximal Policy Optimization for efficient training of same-type agents. -
RL_Learning-main
Fundamental RL tutorials with classic algorithm implementations. -
hands_on_RL
Interactive reinforcement learning projects via Jupyter Notebooks.
Quick Start
- Download the desired module ZIP below
- Check README_en.md for detailed instructions
- Install dependencies:
pip install -r requirements.txt
Support
- English Issues
- License: MIT