optimizer.zero_grad()를 쓰는 이유
-> 그래디언트의 누적으로 엉뚱하게 업데이트 됨
모델 용량이 클 때의 특징
-> 훈련 데이터에 높은 표현력, 과적합 위험 증가, 훈련 시간과 자원 소모 증가
엔트로피가 높다는 것의 의미
-> 불확실한 정보다
엔트로피, 쿨백, CE관계
-> H(P, Q)=H(P)+KB(P, Q)
활성화함수가 비선형성 가지는 이유
-> 안그러면 아무리 층 쌓아도 선형..
ex. ax+b라는 층을 아무리 쌓아도 결과적으로 ax+b임
Bagging, Dropout, L2 (정규화들)구분
-> Bagging : 여러 모델 병렬 학습해서 평균내갖고 모델 분산 감소
-> Dropout : 한 모델 안에서 학습 시마다 랜덤 구조
-> L2 : 한 모델 안에서 손실 함수에 L2 정규화항 적용
Batch normalization 이점
-> 학습 속도 증가, 과적합 감소, 초기값 민감도 감소
머신러닝의 정의
-> 어떤 컴퓨터 프로그램이 경험 E로부터 어떤 과제 T에 대해 성능 P가 향상되도록, 즉 학습하는 것
머신러닝의 목표
-> 주어진 데이터를 잘 나타내는 모델을 찾아서 새로운 데이터에 일반화되는 패턴을 찾는 것
Auto differentiation
-> 걍 forward backward이런거
Internal Covariance 발생 이유
-> 이게머임..
'AI > 딥러닝' 카테고리의 다른 글
Numerical Stability, Optimization (1) | 2025.04.24 |
---|---|
Regularization (1) | 2025.04.24 |
Perceptron, MLP (0) | 2025.04.24 |
ML basics, Model capacity (0) | 2025.04.23 |
DL Basic.. + Optimization (0) | 2025.04.23 |