전체 글
데이터 분석을 하면서 성장 과정데이터 : 1열에 대해 나머지 열들이 어떤 영향을 끼치는지, 어떤 열이 영향을 끼쳤는지(열이름 또는 인덱스)도 중요. 총 500*30000 개의 데이터. 0. 데이터 Null값 치환유사한 열의 같은 행 값으로 바꿔주면 되는데, 그렇다고 30000*30000 모양의 유사도행렬을 만들기는 어렵다.다행히 데이터 특성상, 주변에 있는 열끼리 유사하다는 점을 고려하여, 80개정도씩 나눠서 유사도행렬을 만들고,가장 유사한 열을 골라서 같은 행의 값을 가져왔다.주의해야할 점은, argmax해서 가장 큰 값을 가져온다면.. 자기 자신이 된다.따라서 두 번째로 큰 값을 가져와야 자신과 가장 비슷한 다른 열을 구할 수 있는 것이다. 1. 1열과 나머지 열들의 유사도를 ..