AI

본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. N2M이란?N-to-M 문제로, N개의 입력을 받아 M개의 출력을 생성하는 자연어 처리 문제 유형이다. 이 글에서 다뤄볼 것은 아래와 같다. 1. N2M 문제 정의 및 이해2. Encoder-Decoder vs Decoder-only 모델 구조 차이3. Decoder 출력에서 Search Strategy를 통한 문장 생성 원리 이해4. Text Summarization을 위한 모델 구조와 Loss Function 이해 N2M 문제 정의 및 이해위에서 말했듯 N개의 input Token으로부터 M개의 output token을 생성하는(구하는) 문제이다.자연어 처리 전반에서 흔한 구조다. 번역, 요약, 질문 응답 등.. Text Su..
본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. ChatGPT란?OpenAI에서 개발한 GPT 아키텍처 기반 대규모 언어 모델 시리즈이다.인간처럼 자연스러운 텍스트 생성, 질의응답, 다양한 스타일/포맷에 적응할 수 있는 것이 특징이다.이는 고객 서비스, 콘텐츠 생성, 교육 등에 활용된다.핵심적으로, 윤리적 사용/지속적 학습/성능 개선에 초점을 둔다. 이 글에서 다룰 것은 두 가지이다.1. ChatGPT와 같은 LLM 서비스가 어떻게 학습되는지,2. LLM 서비스를 어떻게 fine-tuning 하는지! ChatGPT의 학습 방식기본 : RLHF (Reinforcement Learning from Human Feedback)단계 : 1. supervised fine-tuning :..
본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. T5 Model (Text-to-Text Transfer Transformer)이 모델의 기본 아키텍처는 아래 그림과 같다. 텍스트 입력을 인코딩한 후, 텍스트 생성 작업을 위해 디코더를 활용하는 text-2-text 접근 방식을 사용한다. 핵심 개념은 모든 자연어 처리 문제(번역, 요약, 질문 응답 등)을 텍스트 생성 문제로 변환해서 해결한다는 것이다.이렇게 말이다. 얘는 어떻게 학습하는 거냐면,기본적으로 대규모 텍스트 코퍼스를 사용해 '마스킹된 텍스트 채우기 작업'을 수행해서 일반적인 언어 지식을 학습한 뒤, 특정 task(질문 응답, 요약 등)를 위해 파인튜닝 된다. 아래 사진을 보자. task가 여럿 있을 때, 각 tas..
본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. Mixed Precision Training기존 LLM은 막대한 GPU 리소스가 필요하다. 이는 사용자에게 부담을 준다.따라서 이런 부담을 줄이기 위해 양자화와 증류(Distillation)을 사용하게 된다. 실수를 표현할 때 32bit를 쓰느냐 64bit를 쓰느냐에 따라 정밀도와 메모리 사용량에 차이가 발생하게 된다.당연히 bit 수가 적을 수록 정밀도는 낮아지고 메모리도 덜 쓰게 될 것이다. 그래서 우리가 원한 것은, 동일한 성능은 유지하면서 메모리는 덜 쓰게 하는 구조이다. 만약 16bit로, 즉 FP16으로 표현 범위를 제한한다면, NaN이 발생할 수 있다. 이때 Loss Scaling으로 해결을 시도할 수 있지만, 그렇다..
본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. Gradient Clipping보통 경사하강법을 진행할 때 Loss function의 미분값과 Learning rate를 곱한 값을 이용해 파라미터 업데이트를 진행한다.근데 만약 미분값이 너~무 크다면, 예를 들어 거의 수직으로 떨어지는 곳이라면.. 내가 원하는 지점이 아닌 다른 지점으로 업데이트되게 될 것이다.그래서 만약 기울기의 L2-norm인 ||g||가 일정 임계값(Eta)을 초과하면 이를 Eta*g/||g|| 로 rescale한다. 그 방향만 가져가는 것이다.이렇게 하면 실제 gradient가 아니기에 bias가 유도될 수도 있긴 하지만, 학습 안정성이 증가하게 된다.이게 gradient clipping이다. 임계값을 초과..
본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. 일단 LLM은 크고 연산 비용이 많이 들기에 전체를 파인튜닝하기엔 어렵다. 그래서 PEFT 방식을 이용해서 이를 해결하는 것이다. 전체 모델을 다 바꾸지 않고 일부 파라미터만 선택적으로 튜닝하는 방식!그 방법 중 LoRA를 소개하겠다. LoRA란?Fine-tuning process의 재해석 아이디어와, Parameter를 작게 관리하는 아이디어를 합한 것이다. 기존 fine-tuning은 원래 Data -> W(Pretrained weights) -> h 로 가는 과정을 거친 후, 그 반대 방향으로 backpropagation을 한다.그렇게 W'를 찾아내고, 새롭게 Data -> W' -> h의 과정을 거칠 수 있도록 한다. ..
본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. 일단 LLM은 크고 연산 비용이 많이 들기에 전체를 파인튜닝하기엔 어렵다.예를 들어.. GPT3는 1750억 파라미터인데.. 이걸 어떻게 일반 장비로 학습/튜닝하겠음! 그렇다면 PEFT가 뭐길래 이거로 위 문제를 해결할 수 있다는 걸까? PEFT란?전체 모델을 다 바꾸지 않고 일부 파라미터만 선택적으로 튜닝하는 방식!이렇게 하면 계산 자원이 절약되고, 기존 학습 내용이 보존된다.그 대표 기법으로 Adapter, Prompt Tuning, Sparse Updating이 있다. 원래 구조는 프롬프트를 LLM 모델에 넣고, 답을 받는 형식이었다.근데 이 LLM Model이 너무 커서 fine-tuning을 하기 어렵다. 1. Pro..
본 게시글은 충남대 정상근 교수님의 강의자료를 바탕으로 작성한 글입니다. 언어 모델링이란,그럴듯한 단어나 문장을 예측하는 행위 분야1. 자동완성 및 추천시스템2. 기계 번역3. 텍스트 요약4. 대화형 AI5. 감정 분석 규칙기반 언어모델 (~1980)사람이 여러 지식/경험에 근거하여 언어 모델을 설계하는 것.어떤 문장이 있을 때 이 다음 어떤 단어 구성이 와야 하는지를 규칙으로 정의하는 것.정규표현식/문맥자유문법/구구조문법 등이 쓰였다. 특정 문맥에서는 엄청난 효과가 있었지만, 모든 규칙을 구현하기는 어렵다는 한계가 있었다. 데이터기반 언어모델 (1980~)데이터를 통해 모델링을 어떻게 할 것인가에 따라 매우 다양한 모델링 방법 제안자연스러운지, 다음 토큰이 무엇일지, 각 문장의 유사도는 어떤지 등을 알..
김다빈다
'AI' 카테고리의 글 목록 (2 Page)