본 포스팅은 책을 바탕으로 작성한 글입니다. 보통 어떤 모델을 만들었을 때, 처음 설정한 모델이 최종모델이 되는 경우는 정말 드물다.변수변환을 하든, 불필요한 설명변수를 제거하든, 다른 설명변수를 추가하든 하며 모델이 바뀐다.이 과정을 "모형구축"이라 한다.그리고 이와 별개로, 반응변수를 가장 잘 설명할 적절한 개수의 설명변수를 선택하는 "변수선택"이 있다. 그러나 지금 볼 선형회귀분석에서는, 모형에 포함되는 설명변수들에 의해 모형의 형태가 결정되기 때문에 둘을 같은 문제로 볼 수 있다. 1. 모형구축의 단계예비단계자료를 수집하기 위해서는 관심 있는 반응변수에 영향을 줄 것 같은 설명변수를 결정해야 한다.경험적으로 알려진 사실이나 이론적 배경을 참고하면 좋지만, 만약 이런 정보가 없다면 최대한 많은 ..
통계/회귀
본 포스팅은 책을 바탕으로 작성한 글입니다. 회귀분석을 하고, 그 자료에 대한 진단 방법으로 여러가지가 있는데,이 글에서는 우선 "영향력 관측치"에 대해 알아보려 한다. 영향력 관측치최소제곱법을 통해 beta_hat과 s^2를 구했을 때, 이 값들은 하나 혹은 소수의 관측치에 의해 큰 영향을 받는 경우가 있다.저렇게 큰 영향을 주는 관측치(들)를 영향력 관측치라고 한다. 그럼 이 영향력 관측치를 어떻게 찾냐 하면은, '영향력 측도'를 이용하면 된다.이는 영향력을 수치화하는 측도이고, 보통 이는 잔차와 지렛값의 증가함수로 나타내진다.그럼 잔차와 지렛값을 알아보겠다. 잔차잔차는 관측값과 적합값의 차이이다. 즉, Y-Y_hat이다. 이 잔차는 e로 나타내지고, 이는 오차(엡실론)의 추정치이다.오차와 잔차의 ..
"회귀"란?지도학습 중 하나로, 입력과 출력이 주어지면 이를 바탕으로 수치값을 예측하는 모델을 만들어내는 것이다. 예를 들어, 아래와 같은 데이터가 주어졌다면 x값이 7일 때 y값은 어떤 수에 가장 근사할까? 내 생각에는 아무래도 y는 15가 될 것 같다. 물론 아닐 수도 있지만 말이다. 이처럼 x와 y가 주어졌을 때 이 데이터를 가장 잘 나타내는 선을 찾는 것이 회귀라고 할 수 있다.여기서 입력인 x는 독립변수, Input, feature라고 불리기도 하고,출력인 y는 종속변수, Output, Response라고 불리기도 한다. 그럼 이 회귀식은 어떻게 표현할 수 있느냐 하면, 우선 파라미터들이 필요하다.가장 단순한 선형회귀식을 생각해보자.위의 그래프의 데이터들로 회귀식을 만들어본다면, 이렇게 나타내는..