DP
결과 저장/재활용으로 반복적 가치함수 개선
Model-based, state늘어날 수록 계산량 급격 증가
MC Learning
Model-free, 한 episode끝나야 가치함수 개선, 한 epi매우길면 학습 어려움
TD는 이 두 개를 합쳤다고 볼 수 있는데,
MC같이 모델 free이며, DP처럼 매 time step마다 학습함!
MC는 episode 끝까지 가보고 가치함수 업뎃했다면,
TD는 조금씩(한 step or 몇 step) 가보면서 return 얻어 가치함수 업뎃! 그러다 끝까지 보게 되면 MC 되는 거임
1-Step TD Prediction (TD(0))
whole episode X, one step만 가보고 return 이용해 현재 state의 가치함수 추정
model free로, 환경과 상호작용해서 값 얻음.
TD Target과 V(St)사이 차이인 TD Error가 0에 가깝게 돼서 V(St)<-V(St)+a가 아니라 V(St)=V(St)가 되도록 하는 게 목표
SARSA Algorithm
St에서 At를 취한 후, Rt+1과 St+1을 구해 주어진 정책으로 At+1을 취하는 것! 각 원소 이름 딴 거임
정책 평가 단계에선 Q(s, a) 계산 후, 다음 state에서 At+1은 At 결정했던 정책 그대로 이용하되 e-greedy 사용
Q-Learning
off-policy,
살사는 policy 반복사용 & 벨만 기댓값 방정식 사용, next state에서 a취해서 결과확인
Q-Learning은 가치 반복사용 & 벨만 최적 방정식 사용, next state에서 a 취하지 않음
'AI > 강화학습' 카테고리의 다른 글
Monte Carlo Learning in RL (0) | 2024.10.24 |
---|---|
Dynamic Programming in RL (2) | 2024.10.23 |
Value function & Bellman equation (0) | 2024.10.17 |
Markov Decision Process (8) | 2024.10.16 |