모듈
numpy : numerical method에 대한 lib. 수치연산
pandas : dataframe(like SQL)
matplotlib, seaborn : 시각화
missingno : null(채워지지 않은) data를 쉽게 볼 수 있음
warnings : warning 메시지에 대한 모듈
plt.style.use('seaborn')
##matplotlib style gallery - 같은 그림일지라도 style에 따라 달라짐
sns.set(font_scale = 2.5)
##plot의 모든 폰트 사이즈를 2.5로
import warnings
warnings.filterwarnings('ignore')
##여러 warning 메시지들을 무시하는
%matplotlib inline
##원래 새로운 창에 그래프가 뜨지만, 이 노트북에서 바로 볼 수 있도록
앞으로의 process
-dataset 처리(null data 등등 처리)
-eda(각 컬럼 분석, 상관관계 분석)
-feature engineering(ont-hot encoding, class 분류, 구간 분류)
-모델 만들기(with sk-learn)
-모델 학습 및 예측
-모델 평가(방식 다양)
df_train = pd.read_csv('../input/train.csv')
df_test = pd.read_csv('../input/test.csv')
##보통 경로는 이렇게 돼있고, 여기서는 input아래 titanic 아래 train, test csv파일이 존재하기에 사이에 titanic 넣어줌.
df_train.describe()
##모든 데이터프레임 객체에는 describe라는 메소드 존재.
##간단한 통계적 수치를 알려주는 메소드
여기서 알 수 있는 것
다른 col들의 count값은 모두 891인데 Age col의 count 값은 714이다. 따라서 null 값이 존재한다는 것
근데 이렇게 보면 조금 불편하니까... for문을 써보자
for col in df_train.columns:
msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_train[col].isnull().sum() / df_train[col].shape[0]))
##python의 format문. 오른쪽 정렬. {:<10}:왼쪽 정렬 {:10}:정렬x
##Null data의 비율
print(msg)
여기서 이런 null data를 보통은 채워줘야 함.
▲null data의 분포를 알기에 좋음
▲null data의 비율을 알기에 좋음
'캐글' 카테고리의 다른 글
titanic 2. EDA - Pclass (Youhan Lee) (1) | 2024.06.14 |
---|