시간차 학습(Temporal Difference Learning)

결과 저장/재활용으로 반복적 가치함수 개선

Model-based, state늘어날 수록 계산량 급격 증가

MC Learning

Model-free, 한 episode끝나야 가치함수 개선, 한 epi매우길면 학습 어려움

TD는 이 두 개를 합쳤다고 볼 수 있는데,

MC같이 모델 free이며, DP처럼 매 time step마다 학습함!

MC는 episode 끝까지 가보고 가치함수 업뎃했다면,

TD는 조금씩(한 step or 몇 step) 가보면서 return 얻어 가치함수 업뎃! 그러다 끝까지 보게 되면 MC 되는 거임

1-Step TD Prediction (TD(0))

whole episode X, one step만 가보고 return 이용해 현재 state의 가치함수 추정

model free로, 환경과 상호작용해서 값 얻음.

TD Target과 V(St)사이 차이인 TD Error가 0에 가깝게 돼서 V(St)<-V(St)+a가 아니라 V(St)=V(St)가 되도록 하는 게 목표

SARSA Algorithm

St에서 At를 취한 후, Rt+1과 St+1을 구해 주어진 정책으로 At+1을 취하는 것! 각 원소 이름 딴 거임

정책 평가 단계에선 Q(s, a) 계산 후, 다음 state에서 At+1은 At 결정했던 정책 그대로 이용하되 e-greedy 사용

Q-Learning

off-policy,

살사는 policy 반복사용 & 벨만 기댓값 방정식 사용, next state에서 a취해서 결과확인

Q-Learning은 가치 반복사용 & 벨만 최적 방정식 사용, next state에서 a 취하지 않음

Monte Carlo Learning in RL (0)	2024.10.24
Dynamic Programming in RL (2)	2024.10.23
Value function & Bellman equation (0)	2024.10.17
Markov Decision Process (8)	2024.10.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바