'분류 전체보기' 카테고리의 글 목록 (2 Page)

2024.12.15· AI/컴퓨터비전

Image classification이미지 분류가 어려운 이유는,일단 컴퓨터에게는 이미지가 각 픽셀이 숫자로 보이고,이미지 자체도 어느 방향에서 찍느냐에 따라 다른 이미지처럼 보이기 때문이다.아니면 뭐 픽셀값이 배경과 유사해서 객체가 눈에 띄지 않는다거나, 배경에 가려질 수도 있다.아니면 객체가 서있든 누워있든 자세가 변형되고, 특이한 모양의 객체가 있고, 같은 객체여도 품종이 다르고,배경에 의해 다르게 인식되고(창틀의 그림자에 의해 개가 호랑이로 인식).. 등등의 문제가 있다. 우리는 그래서 이미지 분류를 위해 박스를 만든다. 이미지에 박스를 쳐서 그 박스가 배경에 해당하는지, 사람에 해당하는지.. 등등을 따진다.그리고 captioning을 하는데, 이건 그 이미지를 언어로 표현한다고 생각하면 된다.예..

Collaborative Filtering: User-User(협력 필터)

2024.12.14· AI/데이터과학

Collaborative Filtering항목의 내용 기반 특성을 사용하지 않고, 유사한 사용자를 찾아 그들의 선호템을 추천하는 방식 사용자 x와, 그가 사용하지 않은 항목 i를 생각해보자.1. x와 '비슷한' 평점을 가진 사용자 N 집합을 찾는다.2. i에 대한 N의 평점을 기반으로 x의 i에 대한 평점을 추정한다. 그럼 저 N을 찾으려면 어떻게 해야 하느냐,사용자의 행을 유틸리티 행렬에서 가져와 비교 후,행 벡터의 유사성으로 사용자간 유사성을 판별 유사도는 또 어떻게 측정하느냐 하면, 사용자들의 평점 벡터 rx와 ry를 활용하는데, 이들의 코사인 유사도를 사용한다.공식은 아래와 같고, 작은 각도가 나오면 선호도가 비슷하단 얘기. 근데 직관적이진 않다.뭐가 직관적이지 않냐면, 결측값 처리나 사용자의 개..

Centrality

2024.12.14· AI/데이터과학

중심성(Centrality)그래프에는 많은 엔티티(노드)를 가지고 있는데, 그중 우리가 집중해야 하는 중요한 엔티티(노드)를 결정하는 기준은? 케빈 베이컨의 6단계 이론- "모든 배우들은 케빈 베이컨과 6다리 이내로 안다"- 왜냐면 케빈 베이컨은 많은 사람들과 일했고, 그들도 또 많은 사람들과 일했고.. 이렇기에!- 그럼 케빈 베이컨이 co-acting graph에서 중심에 있게 된다. 그치만, 케빈에 대한 평균 거리는 2.998이었고, Harvey Keitel에 대한 평균 거리는 2.848이었다.즉, 케빈보다 하비가 더 중심이라는 것. 중심성 : 그래프의 각 노드에 숫자를 부여해 중요도를 나타낸다. 중심에 있을 수록 중요한 것!Degree Centrality : 노드의 연결개수Eccentricity C..

Page Ranks and Random Walks in Graph (3rd page 계산 추가)

2024.12.14· AI/데이터과학

WWW를 그래프 G=(V, E)를 표현해보자웹 페이지를 정점(vertex)으로, 하이퍼링크를 간선(edge)으로 표현한다.만약 페이지 v1이 페이지 v2에 대한 하이퍼링크를 가지고 있다면 E는 엣지 (v1, v2)를 가지고 있다.만약 특정 페이지 v에 outgoing 링크가 없다면, E에 self-loop (v, v) - 자기 자신으로 가는 간선을 추가한다. 랜덤 서핑 알고리즘1. 초기 페이지 u에서 시작하는데, 우리가 방문하고 있는 페이지이다.2. 동전을 던져 앞면이 나오는 확률을 alpha라 한다.3. 만약 앞면이 나왔다면, u의 랜덤한 아웃링크를 따라서 다음 페이지로 이동한다.4. 만약 뒷면이 나왔다면, 그래프의 임의의 페이지로 이동한다. -> 이걸 리셋이라고 한다.5. step 1에서부터 다시 반..

NN(Neural Networks), Convolution, Pooling

2024.12.14· AI/데이터과학

본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.Artificial Neuronsummation+activationInput이 들어오면 가중치가 곱해진 후 summation unit을 통과하게 되고, 활성화함수를 통과하게 된다. AND나 OR는 linearly separable하지만, XOR는 그게 안 된다.그럼 이제 더 많은 뉴런이 필요하게 된다. 보통 신경망은 각각 여러 뉴런을 포함하는 층으로 구성되고,각 레이어는 입력 벡터, 가중치 행렬, 편향 벡터, 출력 벡터와 연결된다. 보통 근사 이론은 유한한 수의 가중치를 가진 최소 1개의 은닉층을 가진 신경망에 의해 잘 근사될 수 있다. 딥러닝은 어떻게 작동하느냐 하면,Training- 모델의 가중치 파라미터를 계산해서 학습 오류를..

Vector Space Model, TFIDF, Word2vec (68-70p 추가)

2024.12.13· AI/데이터과학

본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다. Vector Space Model concept 벡터로 문서를 나타내는 법- 각 concept는 하나의 차원을 정의한다.- k concept는 높은 차원의 공간을 정의한다.- 벡터의 요소는 concept 가중치에 해당한다.이 concept 공간에서의 벡터간 거리는 문서간 관계를 나타낸다. 뭐 만약 축이 스포츠, 교육, 금융 이라면 (주제) 각 문서가 투영되는 것을 통해 그 문서는 어느 주제에 관련있는지 볼 수 있다.이런 식으로 말이다. 근데 이제 이 VS모델이 나타내지 않는 것이 있는데, 그게 뭐냐면- 기본 컨셉을 어떻게 잡는가 (concept은 직교하는 것으로 가정)- 가중치를 어떻게 할당하는가 (가중치는 concept이 문서를 ..

결정트리(Decision Tree)

2024.12.12· AI/데이터과학

본 포스팅은 충남대 이종률 교수님의 강의자료를 바탕으로 작성한 글입니다.되게 간단하게 분류하는 모델이다.질문에 대한 답변으로 분류하는 것!예를 들어,동물인가요? yes다리가 몇 개인가요? 2무슨색인가요? white 요런식으로.. 분류함! 이제부터는 이 결정트리에 대해 Iris flower data set을 이용해볼 것이다.여기서 설명변수는 petal length, petal width, sepal length, sepal width가 있다.그리고 목표는 다른 데이터에 대해 종을 구별해내는 것이다. target = species(versicolor, setosa, virginica) 단지 분포표만을 보고도 dt를 생성할 수 있다.이렇게 말이다.위처럼 non-linear하게 나타낼 수 있어서 logistic..

[DACON] 농산물 가격 예측

2024.12.12· AI/대회

이건 데이터과학 수업에서 텀프로 진행한 대회이다. 난 데과가 너무 좋기 때문에!!! 정말 열심히 하려고 했다.LLM이랑 물가 예측 이렇게 두 주제 중에 골라서 프로젝트를 진행하는 것인데, 난 이 주제를 선정했다. https://dacon.io/competitions/official/236381/overview/description 데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로 - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io 1. 문제정의&데이터이건 대회에서 해줫다 ㅎ여러 판매가(공판가, 도매가 등..)을 가지고 미래 이 농산물의 가격을 예측하는 문제. 2. 전처리이게 전처리를 안 하고 모델만 바꿔서 돌려보니.. 성능이 에바였다...

티스토리툴바