'2025/11/17 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록2025/11/17 (1)

토니의 연습장

Pretrain, SFT, RL

Pretraining -> SFT (Supervised Fine-Tuning) -> RL (Reinforcement Learning) RL 을 하다보면, 기존에 없던 능력을 unlock 해내는 'aha moment' 가 생기는 것을 발견하게 됩니다. Pretraining -> SFT (Supervised Fine-Tuning) -> RL (Reinforcement Learning) (distillation) 이제 강화 학습(RL)을 통해 추론 능력..

AI 일반/모델, 아키텍처, 구현 2025. 11. 17. 10:44

이전 Prev 1 Next 다음

목록2025/11/17 (1)

토니의 연습장

티스토리툴바