DP 

결과 저장/재활용으로 반복적 가치함수 개선

Model-based, state늘어날 수록 계산량 급격 증가

 

MC Learning

Model-free, 한 episode끝나야 가치함수 개선, 한 epi매우길면 학습 어려움

 

TD는 이 두 개를 합쳤다고 볼 수 있는데,

MC같이 모델 free이며, DP처럼 매 time step마다 학습함!

 

MC는 episode 끝까지 가보고 가치함수 업뎃했다면, 

TD는 조금씩(한 step or 몇 step) 가보면서 return 얻어 가치함수 업뎃! 그러다 끝까지 보게 되면 MC 되는 거임

 

1-Step TD Prediction (TD(0))

whole episode X, one step만 가보고 return 이용해 현재 state의 가치함수 추정

model free로, 환경과 상호작용해서 값 얻음.

TD Target과 V(St)사이 차이인 TD Error가 0에 가깝게 돼서 V(St)<-V(St)+a가 아니라 V(St)=V(St)가 되도록 하는 게 목표

 

 

SARSA Algorithm

St에서 At를 취한 후, Rt+1과 St+1을 구해 주어진 정책으로 At+1을 취하는 것! 각 원소 이름 딴 거임

정책 평가 단계에선 Q(s, a) 계산 후, 다음 state에서 At+1은 At 결정했던 정책 그대로 이용하되 e-greedy 사용

 

Q-Learning

off-policy,

 

살사는 policy 반복사용 & 벨만 기댓값 방정식 사용, next state에서 a취해서 결과확인

Q-Learning은 가치 반복사용 & 벨만 최적 방정식 사용, next state에서 a 취하지 않음

 

 

'AI > 강화학습' 카테고리의 다른 글

Monte Carlo Learning in RL  (0) 2024.10.24
Dynamic Programming in RL  (2) 2024.10.23
Value function & Bellman equation  (0) 2024.10.17
Markov Decision Process  (8) 2024.10.16