목록2025/09/05 (1)
토니의 연습장
RLHF / DPO (ft. Pretrained -> SFT -> Reward -> Final model)
1. Step 0: Unsupervised pre-training (비지도 사전 학습)데이터: 저품질의 대규모 인터넷 텍스트 (> 1조 토큰).훈련: 언어모델링 (다음 단어 예측).결과 모델: Pretrained LLM (πθ₀).→ GPT 같은 대형 언어모델의 기본 뼈대가 여기서 만들어짐.2. Step 1: Supervised fine-tuning (지도 미세 조정)데이터: 고품질 시연 데이터 (human demonstration, 즉 사람이 직접 작성한 좋은 대화 예시).훈련: Supervised finetuning (모범적인 답변으로 모델을 미세 조정).결과 모델: SFT 모델 (πθSFT).→ 기본 모델보다 대화형 태스크에 맞게 "훈련된 모델"이 됨.3. Step 2: Fit a reward mo..
AI 일반/모델, 아키텍처, 구현
2025. 9. 5. 13:17