본 포스팅은 충남대 김현 교수님의 강의자료를 바탕으로 쓴 글입니다. Dynamic Programming이 어떤 것인지 한 번쯤은 들어봤을 것이다.가장 많은 예시로 쓰이는 건 피보나치 수열이다.1, 1, 2, 3, 5, 8, 13, 21, 34, 55... 이렇게 앞의 두 숫자가 더해져서 뒤의 숫자를 만드는데,그럼 10번째 피보나치 수를 구하려면 앞의 9개 숫자를 다 구해야 하면.. 너무 오래 걸릴 것이다.그래서 이 결과를 저장해두고 두고두고 쓰는 것이다. 이걸 강화학습에 적용하면, 두 단계로 나뉜다.정책 평가와 정책 개선으로! 1. 정책 평가 (Prediction)모델에 policy가 주어질 때 policy를 평가하는 단계.S, A, P, R, gamma와 policy가 주어지면 value functio..
전체 글
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. 이제 분할 방법에 대한 알고리즘을 설명할 것이다.어떤 데이터베이스 D의 n개의 객체를 k개의 클러스터로 분할하는 문제이다.군집 내 데이터 끼리의 제곱 거리를 최소화한다. K-Means Clustering이건 가장 인기있는 접근 알고리즘이다.임의의 수 k를 정하고, k개의 중심을 랜덤하게 배치한다. 각각 다른 컬러로.그리고 아래의 과정을 더이상 변화가 없을 때까지 반복하는데,1. 각 데이터를 가장 가까운 중심에 할당하고,2. 모인 각각의 색깔의 중심을 계산에 k개의 중심을 각각 색의 중심으로 이동시킨다. * 이름이 비슷한 KNN(K-Nearest Neighbors)와 헷갈릴 수 있는데,KNN은 지도학습인 분류/회귀에서 쓰이는 아예 다..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. 이 글은, item Set들에 대한 내용이다.우리가 다루려는 모든 데이터가 들어있는 set을 U라고 하자. Universal set을 말한다.그럼 이 U에서 item들을 뽑을 수 있을 텐데, 그 뽑힌 애들을 I라고 할 것이다.그 I라는 set안에 담긴 item의 개수가 k일 때, 우리는 I를 k-itemset이라고 한다.만약 우리가 6개의 I를 만들었다면, 6 transitions의 dataset이라고 한다.예를 들어 I = {bread, beer}라 한다면, support(I)는 6개의 transitions 중 I가 포함된 것이 몇 개인지를 의미한다. association Rule RR : I1->I2 의 형태인 규칙이다.I1과 ..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. '상관관계'라고 하면 데이터간 관계가 있음을 나타내는 말이라고 생각할 것이다.이걸 좀 자세히 다뤄보겠다. Correlation, 상관분석상관계수는 어떻게 쓰이냐면,두 수치형 변수간 관계를 측정하고 묘사하며,한 변수가 변하면 나머지 변수도 변한다.그치만 인과관계라고 할 수는 없고, 공변량이다. (공유하는 변화량 이라고 생각하면 된다.) 가장 흔히 쓰이는 상관계수는 피어슨 상관계수이다.이렇게 계산하는 것이고, n은 데이터의 개수, 알파벳 위의 _는 bar라고 읽으며 그 알파벳으로 나타내진 데이터의 평균을 의미한다.분모에 있는 동그랗게 생긴 기호는 sigma이고, 데이터의 표준편차를 나타낸다. 표준편차의 제곱이 분산이다.두 변수가 정규분..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.Faithfulness, 충실성데이터가 현실성을 얼마나 잘 포착할 것인가에 대한 내용이다. 1. 내 데이터가 비현실적이거나 잘못된 값을 가지고 있는가? ex), 오타, 큰 이상치, 비존재하는 것, 잘못 기록된 날짜 등..2. 내 데이터가 명백한 종속성을 위반하는가? ex), 출생년도와 나이가 맞지 않는 경우3. 손으로 입력한 것인가? ex) 스펠 오류, 칸 밀려씀, 필수 항목을 빼놓진 않았는지4. 데이터 위조의 근거가 있는지? ex) 같은 이름이 여러 개, 이상한 이메일 주소 등5. 잘린 데이터, 철자 오류, 시간 불일치, 중복된 행 또는 열, 단위가 특정되지 않거나 불일치, NaN/Null -> 이런 경우의 이상한 데이터를..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.Box and whisker plot양적 변수에 대한 그래프!First or lower quartile은 25%, Second quartile은 50%, Third or Upper quartile은 75%따라서 First & Third quartile은 항상 middle 50%의 데이터를 포함하고 있다.데이터 분포를 볼 때 자주 쓰이는 box plot의 IQR은, Q3-Q1로 계산된다. 여기서 Whiskers는 이상치 기준선을 나타내는데, Q1-1.5*IQR 부분과 Q3+1.5*IQR 부분을 말한다.이 Whisker를 넘어가는 부분을 이상치로 정한다. HistogramRug plot을 아는가? 이는 1차원 데이터를 쭉 나열한 그래프라..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. 정규표현식은 어떤 문장에서 특정한 형태의 문자열을 뽑고 싶을 때 사용하는 것이다.여러 방식이 있으니, 추출하려는 문자열의 특징을 잘 파악해서 사용해야 한다. [표 정리]//Re pattern/[abcd]대괄호 안의 문자들 중 하나++ 앞의 문자를 하나 이상gGlobally match^^ 뒤의 문자로 시작되는 문자열$$ 앞의 문자로 끝나는 문자열?? 앞의 문자가 하나 또는 없음** 앞의 문자가 없거나 그 이상a|ba 또는 b()()안의 문자들을 그룹으로 처리()()괄호 그룹의 집합.어떤 문자든 하나\s공백\S공백 아닌 문자[^abcd]abcd가 아닌[a-z0-9가-힣]저 범위의 문자들 [실습]이런 다양한 정규표현식을 사용하려면, r..
"회귀"란?지도학습 중 하나로, 입력과 출력이 주어지면 이를 바탕으로 수치값을 예측하는 모델을 만들어내는 것이다. 예를 들어, 아래와 같은 데이터가 주어졌다면 x값이 7일 때 y값은 어떤 수에 가장 근사할까? 내 생각에는 아무래도 y는 15가 될 것 같다. 물론 아닐 수도 있지만 말이다. 이처럼 x와 y가 주어졌을 때 이 데이터를 가장 잘 나타내는 선을 찾는 것이 회귀라고 할 수 있다.여기서 입력인 x는 독립변수, Input, feature라고 불리기도 하고,출력인 y는 종속변수, Output, Response라고 불리기도 한다. 그럼 이 회귀식은 어떻게 표현할 수 있느냐 하면, 우선 파라미터들이 필요하다.가장 단순한 선형회귀식을 생각해보자.위의 그래프의 데이터들로 회귀식을 만들어본다면, 이렇게 나타내는..