TD time step parameter

currently multi-step TD has an incorrect parameter (JuliaReinforcementLearning/ReinforcementLearning.jl#648).  
https://github.com/JuliaReinforcementLearning/ReinforcementLearningAnIntroduction.jl/blob/e83f54055d621dbc44b205d2016c6868abf4b4a1/notebooks/Chapter09_Random_Walk.jl#L193-L216

as an example, the `n` is used as the number of time steps.  however it currently corresponds to the number of time steps plus one.  `run_once(1, α)` thus is not `TD(0)` which has a time step parameter of 1, but rather a 2-step TD method.  depending on how upstream is resolved an update might be needed here.

	function run_once(n, α)
	env = StateTransformedEnv(
	RandomWalk1D(N=NS, actions=ACTIONS),
	state_mapping=GroupMapping(n=NS)
	)
	agent = Agent(
	policy=VBasedPolicy(
	learner=TDLearner(
	approximator=TabularVApproximator(;
	n_state=n_groups+2,
	opt=Descent(α)
	),
	method=:SRS,
	n=n
	),
	mapping=(env,V) -> rand(action_space(env))
	),
	trajectory=VectorSARTTrajectory()
	)

	hook = RecordRMS()
	run(agent, env, StopAfterEpisode(10),hook)
	mean(hook.rms)
	end

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

TD time step parameter #87

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Uh oh!

TD time step parameter #87

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions