DP 결과 저장/재활용으로 반복적 가치함수 개선Model-based, state늘어날 수록 계산량 급격 증가 MC LearningModel-free, 한 episode끝나야 가치함수 개선, 한 epi매우길면 학습 어려움 TD는 이 두 개를 합쳤다고 볼 수 있는데,MC같이 모델 free이며, DP처럼 매 time step마다 학습함! MC는 episode 끝까지 가보고 가치함수 업뎃했다면, TD는 조금씩(한 step or 몇 step) 가보면서 return 얻어 가치함수 업뎃! 그러다 끝까지 보게 되면 MC 되는 거임 1-Step TD Prediction (TD(0))whole episode X, one step만 가보고 return 이용해 현재 state의 가치함수 추정model free로, 환경과 상호..
AI/강화학습
본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 작성한 글입니다. 몬테카를로 방법이란,무작위 샘플링을 바탕으로 반복 샘플링을 통해 값을 근사하는 방법이다! ex) 사각형 안에 원 그린 후, 무작위 점 찍어서 점 개수로 원 넓이 추정 그럼 이게 강화학습에선 어떻게 쓰이냐 하면,환경에 대한 dynamics를 사전에 알 수 없다는 전제 하에, agent가 환경과 상호작용 통해 s, a, r, s'를 얻고, 가치함수를 추측하는 데 사용에피소드를 반복해 나가면서 각 state의 보상의 합인 state-value function이 누적되고, 이 평균으로 실제 값을 추정 DP는 단계씩 나아갔지만,MC는 우선 끝까지 간다!! Goal : policy가 주어졌을 때, 이 policy로 만들어지는 episo..
본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 쓴 글입니다. Dynamic Programming이 어떤 것인지 한 번쯤은 들어봤을 것이다.가장 많은 예시로 쓰이는 건 피보나치 수열이다.1, 1, 2, 3, 5, 8, 13, 21, 34, 55... 이렇게 앞의 두 숫자가 더해져서 뒤의 숫자를 만드는데,그럼 10번째 피보나치 수를 구하려면 앞의 9개 숫자를 다 구해야 하면.. 너무 오래 걸릴 것이다.그래서 이 결과를 저장해두고 두고두고 쓰는 것이다. 이걸 강화학습에 적용하면, 두 단계로 나뉜다.정책 평가와 정책 개선으로! 1. 정책 평가 (Prediction)모델에 policy가 주어질 때 policy를 평가하는 단계.S, A, P, R, gamma와 policy가 주어지면 value functio..
2024.10.16 - [AI/강화학습] - Markov Decision Process Markov Decision Process본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 쓴 글입니다. 우선 MDP를 들어가기에 앞서, 간단히 강화학습이 무엇인지 알아보고자 한다. 강화학습이란 에이전트(A)가 어떤 환경(S)에bin-dax.tistory.com강화학습의 기초 내용과 MDP에 관한 내용이 담긴 글이다. 본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 쓴 글입니다. 환경에 대한 모델, MDP 모델을 아는 상태에서 이 환경 모델을 이용해 최선의 정책을 찾는 것은 계획이다.환경을 모를 때 s에서 a를 취해보고 정보를 얻어 환경과 지속적으로 상호작용하며 최선의 정책을 찾는 것은 강화학습이다. 1. ..
본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 쓴 글입니다. 우선 MDP를 들어가기에 앞서, 간단히 강화학습이 무엇인지 알아보고자 한다. 강화학습이란 에이전트(A)가 어떤 환경(S)에서 누적보상(return)을 최대화할 수 있도록 행동(A)을 취하는 순차적 의사결정 문제를 해결하는 학습방법이다.이 과정은 1. 환경을 관찰하고, 2. 관찰된 환경으로부터 현재 상태를 알아낸 후, 3. 최선의 행동을 결정하고, 4. 결과(보상)를 확인한 후, 5. 상태 정보를 변경하는 순서로 이루어진다. 행동을 취하게 되는 두 가지 방법이 있는데, 활용(Exploitation)과 탐색(Exploration)이다.활용은 알고 있는 정보를 활용해 최선의 행동을 하는 것이고, 탐색은 알려지지 않은 행동을 시도해 새로운 경험..