본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.

Box and whisker plot

양적 변수에 대한 그래프!

First or lower quartile은 25%, Second quartile은 50%, Third or Upper quartile은 75%

따라서 First & Third quartile은 항상 middle 50%의 데이터를 포함하고 있다.

데이터 분포를 볼 때 자주 쓰이는 box plot의 IQR은, Q3-Q1로 계산된다.

 

여기서 Whiskers는 이상치 기준선을 나타내는데, Q1-1.5*IQR 부분과 Q3+1.5*IQR 부분을 말한다.

이 Whisker를 넘어가는 부분을 이상치로 정한다.

 

Histogram

Rug plot을 아는가? 이는 1차원 데이터를 쭉 나열한 그래프라고 보면 된다.

x축은 데이터의 범위이고, 데이터가 있는 곳마다 그래프가 그려져있다.

따라서 데이터가 한 곳에 몰려서 찍혀있을 수도 있다.

그리고 그 높이는 모든 데이터가 다 같다. 그냥 어디에 몰려있는지 정도 확인할 수 있다.

 

이러한 Rug plot을 좀 스무스하게 그린 버전이 Histogram이다.

히스토그램은 어디에 데이터가 얼마나 있는지 볼 수 있다. 각 데이터의 빈도에 따라 높이가 다르기 때문이다.

 

KDE

Kernel Density Estimation은 데이터셋으로부터 확률 밀도 함수를 추정할 때 쓰인다.

조금 어렵게 느껴질 수도 있지만, 간단히 생각하면 된다!

일단 커널을 만든다. 어떤 확률분포라고 생각하면 되고, 따라서 커널과 x축 사이 공간의 넓이는 1이다.

그래서 이 커널을, 우리가 뽑은 샘플 데이터 모든 위치에 놓는다.

즉, 커널이 이렇게 양옆으로 쭉 늘어설 것이다. 당연히 겹치는 부분도 생길 것이다.

 

그럼 이제 우리가 원하는 것은, 이걸 하나의 분포로 다시 만드는 것이다.

근데.. 지금은 넓이가 1인 커널이 데이터 수 n만큼 쌓여있으니까 총 넓이가 n일 것이다.(겹친 것은 생각하지 않고, 커널의 크기만 따지면)

근데 확률 분포가 되려면 총 넓이가 1이 돼야 하므로, 모든 커널의 값들을 다 n으로 나눈다.

 

그 후, 겹치는 부분은 그 커널의 값들을 다 더해서 수직으로 쌓는다.

그럼 넓이가 1인 확률 분포처럼 생긴 그래프를 만들 수 있을 것이다.

따라서 이건 커널이 어떻게 생겼는지가 중요할 것인데, bandwidth라는 alpha값이 이를 결정한다.

그럼 이 alpha값이 달라짐에 따라 뭐가 달라지냐면, 알파가 커질 수록 그래프는 스무스해지지만, 따라서 정보가 손실된다.

그리고 이 알파는 정규분포에서 분산을 의미한다.