본 포스팅은 책을 바탕으로 작성한 글입니다. 회귀분석을 하고, 그 자료에 대한 진단 방법으로 여러가지가 있는데,이 글에서는 우선 "영향력 관측치"에 대해 알아보려 한다. 영향력 관측치최소제곱법을 통해 beta_hat과 s^2를 구했을 때, 이 값들은 하나 혹은 소수의 관측치에 의해 큰 영향을 받는 경우가 있다.저렇게 큰 영향을 주는 관측치(들)를 영향력 관측치라고 한다. 그럼 이 영향력 관측치를 어떻게 찾냐 하면은, '영향력 측도'를 이용하면 된다.이는 영향력을 수치화하는 측도이고, 보통 이는 잔차와 지렛값의 증가함수로 나타내진다.그럼 잔차와 지렛값을 알아보겠다. 잔차잔차는 관측값과 적합값의 차이이다. 즉, Y-Y_hat이다. 이 잔차는 e로 나타내지고, 이는 오차(엡실론)의 추정치이다.오차와 잔차의 ..
전체 글
DP 결과 저장/재활용으로 반복적 가치함수 개선Model-based, state늘어날 수록 계산량 급격 증가 MC LearningModel-free, 한 episode끝나야 가치함수 개선, 한 epi매우길면 학습 어려움 TD는 이 두 개를 합쳤다고 볼 수 있는데,MC같이 모델 free이며, DP처럼 매 time step마다 학습함! MC는 episode 끝까지 가보고 가치함수 업뎃했다면, TD는 조금씩(한 step or 몇 step) 가보면서 return 얻어 가치함수 업뎃! 그러다 끝까지 보게 되면 MC 되는 거임 1-Step TD Prediction (TD(0))whole episode X, one step만 가보고 return 이용해 현재 state의 가치함수 추정model free로, 환경과 상호..
본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 작성한 글입니다. 몬테카를로 방법이란,무작위 샘플링을 바탕으로 반복 샘플링을 통해 값을 근사하는 방법이다! ex) 사각형 안에 원 그린 후, 무작위 점 찍어서 점 개수로 원 넓이 추정 그럼 이게 강화학습에선 어떻게 쓰이냐 하면,환경에 대한 dynamics를 사전에 알 수 없다는 전제 하에, agent가 환경과 상호작용 통해 s, a, r, s'를 얻고, 가치함수를 추측하는 데 사용에피소드를 반복해 나가면서 각 state의 보상의 합인 state-value function이 누적되고, 이 평균으로 실제 값을 추정 DP는 단계씩 나아갔지만,MC는 우선 끝까지 간다!! Goal : policy가 주어졌을 때, 이 policy로 만들어지는 episo..
본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 쓴 글입니다. Dynamic Programming이 어떤 것인지 한 번쯤은 들어봤을 것이다.가장 많은 예시로 쓰이는 건 피보나치 수열이다.1, 1, 2, 3, 5, 8, 13, 21, 34, 55... 이렇게 앞의 두 숫자가 더해져서 뒤의 숫자를 만드는데,그럼 10번째 피보나치 수를 구하려면 앞의 9개 숫자를 다 구해야 하면.. 너무 오래 걸릴 것이다.그래서 이 결과를 저장해두고 두고두고 쓰는 것이다. 이걸 강화학습에 적용하면, 두 단계로 나뉜다.정책 평가와 정책 개선으로! 1. 정책 평가 (Prediction)모델에 policy가 주어질 때 policy를 평가하는 단계.S, A, P, R, gamma와 policy가 주어지면 value functio..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. 이제 분할 방법에 대한 알고리즘을 설명할 것이다.어떤 데이터베이스 D의 n개의 객체를 k개의 클러스터로 분할하는 문제이다.군집 내 데이터 끼리의 제곱 거리를 최소화한다. K-Means Clustering이건 가장 인기있는 접근 알고리즘이다.임의의 수 k를 정하고, k개의 중심을 랜덤하게 배치한다. 각각 다른 컬러로.그리고 아래의 과정을 더이상 변화가 없을 때까지 반복하는데,1. 각 데이터를 가장 가까운 중심에 할당하고,2. 모인 각각의 색깔의 중심을 계산에 k개의 중심을 각각 색의 중심으로 이동시킨다. * 이름이 비슷한 KNN(K-Nearest Neighbors)와 헷갈릴 수 있는데,KNN은 지도학습인 분류/회귀에서 쓰이는 아예 다..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. 이 글은, item Set들에 대한 내용이다.우리가 다루려는 모든 데이터가 들어있는 set을 U라고 하자. Universal set을 말한다.그럼 이 U에서 item들을 뽑을 수 있을 텐데, 그 뽑힌 애들을 I라고 할 것이다.그 I라는 set안에 담긴 item의 개수가 k일 때, 우리는 I를 k-itemset이라고 한다.만약 우리가 6개의 I를 만들었다면, 6 transitions의 dataset이라고 한다.예를 들어 I = {bread, beer}라 한다면, support(I)는 6개의 transitions 중 I가 포함된 것이 몇 개인지를 의미한다. association Rule RR : I1->I2 의 형태인 규칙이다.I1과 ..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. '상관관계'라고 하면 데이터간 관계가 있음을 나타내는 말이라고 생각할 것이다.이걸 좀 자세히 다뤄보겠다. Correlation, 상관분석상관계수는 어떻게 쓰이냐면,두 수치형 변수간 관계를 측정하고 묘사하며,한 변수가 변하면 나머지 변수도 변한다.그치만 인과관계라고 할 수는 없고, 공변량이다. (공유하는 변화량 이라고 생각하면 된다.) 가장 흔히 쓰이는 상관계수는 피어슨 상관계수이다.이렇게 계산하는 것이고, n은 데이터의 개수, 알파벳 위의 _는 bar라고 읽으며 그 알파벳으로 나타내진 데이터의 평균을 의미한다.분모에 있는 동그랗게 생긴 기호는 sigma이고, 데이터의 표준편차를 나타낸다. 표준편차의 제곱이 분산이다.두 변수가 정규분..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.Faithfulness, 충실성데이터가 현실성을 얼마나 잘 포착할 것인가에 대한 내용이다. 1. 내 데이터가 비현실적이거나 잘못된 값을 가지고 있는가? ex), 오타, 큰 이상치, 비존재하는 것, 잘못 기록된 날짜 등..2. 내 데이터가 명백한 종속성을 위반하는가? ex), 출생년도와 나이가 맞지 않는 경우3. 손으로 입력한 것인가? ex) 스펠 오류, 칸 밀려씀, 필수 항목을 빼놓진 않았는지4. 데이터 위조의 근거가 있는지? ex) 같은 이름이 여러 개, 이상한 이메일 주소 등5. 잘린 데이터, 철자 오류, 시간 불일치, 중복된 행 또는 열, 단위가 특정되지 않거나 불일치, NaN/Null -> 이런 경우의 이상한 데이터를..