'2025/09/05 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록2025/09/05 (1)

토니의 연습장

RLHF / DPO (ft. Pretrained -> SFT -> Reward -> Final model)

1. Step 0: Unsupervised pre-training (비지도 사전 학습)데이터: 저품질의 대규모 인터넷 텍스트 (> 1조 토큰).훈련: 언어모델링 (다음 단어 예측).결과 모델: Pretrained LLM (πθ₀).→ GPT 같은 대형 언어모델의 기본 뼈대가 여기서 만들어짐.2. Step 1: Supervised fine-tuning (지도 미세 조정)데이터: 고품질 시연 데이터 (human demonstration, 즉 사람이 직접 작성한 좋은 대화 예시).훈련: Supervised finetuning (모범적인 답변으로 모델을 미세 조정).결과 모델: SFT 모델 (πθSFT).→ 기본 모델보다 대화형 태스크에 맞게 "훈련된 모델"이 됨.3. Step 2: Fit a reward mo..

AI 일반/모델, 아키텍처, 구현 2025. 9. 5. 13:17

이전 Prev 1 Next 다음

목록2025/09/05 (1)

토니의 연습장

티스토리툴바