SARSA¶

class SARSA(**kwargs)¶

Bases: pandemonium.demons.control.TDControl

Semi-gradient \(\SARSA{(\lambda)}\).

References

“Reinforcement Learning: An Introduction”: Sutton and Barto (2018) ch. 12.7 http://incompleteideas.net/book/the-book.html

Methods Summary

q_t(self, exp, ForwardRef])

Computes action-value targets \(Q(s_{t+1}, \hat{a})\).

Methods Documentation

q_t(self, exp: Union[ForwardRef(‘Transition’), ForwardRef(‘Trajectory’)])¶

Computes action-value targets \(Q(s_{t+1}, \hat{a})\).

Algorithms differ in the way \(\hat{a}\) is chosen.

\[\begin{split}\begin{align*} \text{Q-learning} &: \hat{a} = \argmax_{a \in \mathcal{A}}Q(s_{t+1}, a) \\ \SARSA &: \hat{a} = \mu(s_{t+1}) \end{align*}\end{split}\]