Skip to content

Release v1.4

Latest

Choose a tag to compare

@github-actions github-actions released this 08 Apr 13:49

变更日志 / Changelog

版本 v1.4

更新日志(本次发布)


2026.4.8

  1. 修复 issue-9:修正 RL_Learning-main/scripts/Chapter5_Monte Carlo Methods/MC_epsilon_greedy.py 中 Monte Carlo epsilon-greedy 控制实现的两处问题。
  • 回报计算改为标准的逆序递推 G = gamma * G + reward,移除原先基于 episode.index(step) 的错位切片与重复累计逻辑,避免折扣回报被错误计算。
  • 策略改进恢复为教材中的 epsilon-soft 更新公式,不再把策略退化为确定性的 greedy policy。
  • 同时将 np.divide(..., where=num_visits != 0) 改为显式写入零值输出,避免未访问状态动作对产生未初始化的 qvalue


2026.4.8

  1. 补全 issue-7 的修复:RL_Learning-main/scripts/Chapter5_Monte Carlo Methods/MC_Basic.pyepisodes = [] 现在会在每个 (state, action) 上重新初始化。
  • 避免不同状态动作对的 episode 被错误混合到同一个 Q(s,a) 估计中。
  • mc_basic_simple()mc_basic_simple_GUI() 两处已同步修正。


2026.4.8

  1. 统一 RL_Learning-main 中多个教学脚本的 grid_env 导入方式,移除对 sys.path.append("..") 的相对路径依赖。
  • 改为基于 Path(__file__).resolve().parent.parent 的绝对路径导入写法,提升不同启动目录下的运行稳定性。
  • 涉及 Monte Carlo、Temporal-Difference、Value Approximation、Policy Gradient 章节的多个脚本。

完整历史记录请查看 .github/CHANGELOG.md


多模块独立发布包

模块介绍

  • MADDPG_Continous
    多智能体深度确定性策略梯度算法(连续动作空间版本),适用于连续控制场景的多智能体协同训练。

  • MATD3_Continous
    多智能体双延迟深度确定性策略梯度算法,在MADDPG基础上增加了延迟更新和策略平滑机制。

  • HAPPO-MAPPO_Continous_Heterogeneous
    异质智能体近端策略优化算法,支持不同类型智能体的混合训练场景。

  • MAPPO_Continous_Homogeneous
    同质智能体近端策略优化算法,针对同类型智能体的高效训练优化。

  • RL_Learning-main
    赵世钰老师强化学习基础教程合集,包含经典算法实现和示例代码。

  • hands_on_RL
    动手学强化学习实践项目,通过Jupyter Notebook提供互动式学习体验。

使用说明

  1. 点击下方所需模块的ZIP文件下载
  2. 解压后阅读README.md获取详细使用指南
  3. 安装依赖:pip install -r requirements.txt

支持渠道


Independent Modules Release

Available Modules

  • MADDPG_Continous
    Multi-Agent Deep Deterministic Policy Gradient (continuous action space version) for cooperative multi-agent control.

  • MATD3_Continous
    Multi-Agent Twin Delayed DDPG, featuring delayed updates and policy smoothing.

  • HAPPO-MAPPO_Continous_Heterogeneous
    Heterogeneous Agent Proximal Policy Optimization for mixed-type agent scenarios.

  • MAPPO_Continous_Homogeneous
    Homogeneous Agent Proximal Policy Optimization for efficient training of same-type agents.

  • RL_Learning-main
    Fundamental RL tutorials with classic algorithm implementations.

  • hands_on_RL
    Interactive reinforcement learning projects via Jupyter Notebooks.

Quick Start

  1. Download the desired module ZIP below
  2. Check README_en.md for detailed instructions
  3. Install dependencies: pip install -r requirements.txt

Support