AI/데이터과학

본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. 이 글은, item Set들에 대한 내용이다.우리가 다루려는 모든 데이터가 들어있는 set을 U라고 하자. Universal set을 말한다.그럼 이 U에서 item들을 뽑을 수 있을 텐데, 그 뽑힌 애들을 I라고 할 것이다.그 I라는 set안에 담긴 item의 개수가 k일 때, 우리는 I를 k-itemset이라고 한다.만약 우리가 6개의 I를 만들었다면, 6 transitions의 dataset이라고 한다.예를 들어 I = {bread, beer}라 한다면, support(I)는 6개의 transitions 중 I가 포함된 것이 몇 개인지를 의미한다. association Rule RR : I1->I2 의 형태인 규칙이다.I1과 ..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. '상관관계'라고 하면 데이터간 관계가 있음을 나타내는 말이라고 생각할 것이다.이걸 좀 자세히 다뤄보겠다. Correlation, 상관분석상관계수는 어떻게 쓰이냐면,두 수치형 변수간 관계를 측정하고 묘사하며,한 변수가 변하면 나머지 변수도 변한다.그치만 인과관계라고 할 수는 없고, 공변량이다. (공유하는 변화량 이라고 생각하면 된다.) 가장 흔히 쓰이는 상관계수는 피어슨 상관계수이다.이렇게 계산하는 것이고, n은 데이터의 개수, 알파벳 위의 _는 bar라고 읽으며 그 알파벳으로 나타내진 데이터의 평균을 의미한다.분모에 있는 동그랗게 생긴 기호는 sigma이고, 데이터의 표준편차를 나타낸다. 표준편차의 제곱이 분산이다.두 변수가 정규분..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.Faithfulness, 충실성데이터가 현실성을 얼마나 잘 포착할 것인가에 대한 내용이다. 1.  내 데이터가 비현실적이거나 잘못된 값을 가지고 있는가?  ex), 오타, 큰 이상치, 비존재하는 것, 잘못 기록된 날짜 등..2. 내 데이터가 명백한 종속성을 위반하는가?  ex), 출생년도와 나이가 맞지 않는 경우3. 손으로 입력한 것인가?  ex) 스펠 오류, 칸 밀려씀, 필수 항목을 빼놓진 않았는지4. 데이터 위조의 근거가 있는지?  ex) 같은 이름이 여러 개, 이상한 이메일 주소 등5. 잘린 데이터, 철자 오류, 시간 불일치, 중복된 행 또는 열, 단위가 특정되지 않거나 불일치, NaN/Null -> 이런 경우의 이상한 데이터를..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.Box and whisker plot양적 변수에 대한 그래프!First or lower quartile은 25%, Second quartile은 50%, Third or Upper quartile은 75%따라서 First & Third quartile은 항상 middle 50%의 데이터를 포함하고 있다.데이터 분포를 볼 때 자주 쓰이는 box plot의 IQR은, Q3-Q1로 계산된다. 여기서 Whiskers는 이상치 기준선을 나타내는데, Q1-1.5*IQR 부분과 Q3+1.5*IQR 부분을 말한다.이 Whisker를 넘어가는 부분을 이상치로 정한다. HistogramRug plot을 아는가? 이는 1차원 데이터를 쭉 나열한 그래프라..
본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. 정규표현식은 어떤 문장에서 특정한 형태의 문자열을 뽑고 싶을 때 사용하는 것이다.여러 방식이 있으니, 추출하려는 문자열의 특징을 잘 파악해서 사용해야 한다. [표 정리]//Re pattern/[abcd]대괄호 안의 문자들 중 하나++ 앞의 문자를 하나 이상gGlobally match^^ 뒤의 문자로 시작되는 문자열$$ 앞의 문자로 끝나는 문자열?? 앞의 문자가 하나 또는 없음** 앞의 문자가 없거나 그 이상a|ba 또는 b()()안의 문자들을 그룹으로 처리()()괄호 그룹의 집합.어떤 문자든 하나\s공백\S공백 아닌 문자[^abcd]abcd가 아닌[a-z0-9가-힣]저 범위의 문자들  [실습]이런 다양한 정규표현식을 사용하려면, r..