feature 분석을 할 때 신경써야할 것들 1. 데이터 확인- 데이터 분포/결측치 확인(EDA) : 개수, 내용, 차원, 이상치 threshold 등 2. 평가지표- RMSE, MAE, Recall, Precision 등 어떤 평가지표를 더욱 중요하게 생각해야 하는지 3. 상관관계- Feature간 상관관계 확인 : 만약 상관관계가 너무 높은 feature들이 있다면, 다중공선성 문제가 생길 수 있음- VIF 지수 확인- 정상데이터 vs 이상치데이터 의 feature간 상관관계 분석 - 개별 feature의 상관관계 분석 분포의 이동: 이상치 데이터에서 특정 피처의 평균이나 중앙값이 한쪽으로 크게 쏠려 있는가?분산의 변화: 이상치 데이터에서 피처 값들이 더 넓게 퍼져 있거나(분산 증가), 특정 값에만 ..
AI
그래프란?데이터 유형에는 시계열, 이미지, 텍스트, 공간적 데이터가 있다. -> 모두 “연속적”이라는 공통점그래프는 연속성보다는 상관관계, 위상적 연결을 통해 데이터에 접근하며, 시간에 따른 관계의 변화를 고려한다. Graph = G(V, E) V:Nodes(개체), E:Egde(관계) 활용 분야 : 소셜미디어, 화학식, 생물학, 교통, 프로그램 분석 그래프를 수학적으로 표현하는 방법기초적으로 인접행렬[두 노드가 연결되면 1, 연결되지 않으면 0 -> (#node, #node) shape, A or W] 로 표현된다. 그래프의 방향이 ‘없는’ 경우는 인접행렬이 symmetric하다. 하지만 방향이 있는 경우는 정보의 흐름까지 표현하기 위해 대칭성이 깨지게 된다. 또한, 만약 자기 자신의 정보도 중요한 ..
Songtao Liu, Rex Ying,Hanze Dong, Lanqing Li, Tingyang Xu, Yu Rong, Peilin Zhao, Junzhou Huang, Dinghao Wu1. 그래프 신경망(GNN)은 이웃 노드 정보 집계에 의존하지만, 이웃이 적은 노드의 표현 학습에 한계가 있습니다. 2. 본 논문은 중심 노드의 특징에 기반하여 이웃 노드의 특징 분포를 학습하고 추가적인 특징을 생성하는 로컬 증강(Local Augmentation) 기법을 제안합니다. 3. 이 플러그-앤-플레이 방식의 기법은 다양한 GNN 모델에 쉽게 적용 가능하며, 여러 벤치마크에서 특히 저연결 노드의 성능을 포함하여 GNN의 전반적인 성능을 향상시키는 것으로 나타났습니다. 초록GNN의 한계점을 해결하기 위한 데이터..
On k-Path Covers and their Applications, Stefan Funke, Andre Nusser, Sabine Storandt 1. 대규모 도로 네트워크에서, 길이가 k인 모든 경로에 대해 최소 하나 이상의 노드를 포함하는 작은 노드 집합 (k-Path Cover)를 구성하는 문제를 다룬다.2. 위 k-Path Cover를 실제 대규모 그래프에서 매우 작게 효율적으로 구축할 수 있는 Pruning 알고리즘을 제시하며, 이는 기존 k-Shortest-Path Cover 방법보다 더 나은 결과를 얻는다.3. 구성된 k-Path Cover는 오버레이 그래프의 기반이 되어, 사용자별 선호도를 반영하는 개인화된 경로 계획 질의를 기존 Dijkstra 알고리즘보다 훨씬 빠르게 처리 가능하다..
RNN의 문제점RNN은 과거 입력들이 계속 연결된 구조이기에,역전파 과정에서 gradient가 계속 곱해지면서 weight가 1보다 작으면 gradient가 점점 작아져 사라지고(vanishing),1보다 크면 gradient가 점점 커져서 폭발하게 된다(exploding).이러한 문제는 RNN이 장기 의존성을 학습하는 데 큰 방해가 된다.그나마 exploding 문제는 gradient clipping을 하면 되지만, vanishing gradient 문제는 RNN의 구조를 바꿔야 할 필요가 있다.그래서 나타난 것이 LSTM이다. LSTM(Long Short Term Memory)기울기 소실/폭발 문제를 해결하기 위해 등장한 구조로,핵심 아이디어는 '정보를 장기적으로 유지할 수 있는 cell state..
이제 딥러닝 모델의 크기가 점점 커지고 있다.따라서 당연하게도 연산량과 파라미터 수도 증가한다. 이는 메모리, 계산 자원, 배터리 등에 부담을 준다.Vision 분야, NLP 분야 둘 다 그렇다. 따라서 이에 대해 두 가지 해결책을 제시했다. 당연히 이 둘의 목적은 모델 사이즈 축소+계산 효율성 향상+적은 에너지 사용이다. 1. Pruning보라 : 걍 단순 가지치기, 초록 : 가지치기 하고 성능 하락 보완 위해 재학습, 빨강 : 가지치기-재학습-가지치기 ... 불필요한 연결(synapse)이나 뉴런을 제거하는 가지치기 기법이다. 인간의 뇌에서도 자연스럽게 pruning이 수행된다.보통 2-4살 때는 사물의 어떤 것을 기억해야 할지 잘 모르기 때문에 모든 것을 기억하려 한다.이때 synapse per..