목록2025/11/17 (1)
토니의 연습장
Pretrain, SFT, RL
Pretraining -> SFT (Supervised Fine-Tuning) -> RL (Reinforcement Learning) RL 을 하다보면, 기존에 없던 능력을 unlock 해내는 'aha moment' 가 생기는 것을 발견하게 됩니다. Pretraining -> SFT (Supervised Fine-Tuning) -> RL (Reinforcement Learning) (distillation) 이제 강화 학습(RL)을 통해 추론 능력..
AI 일반/모델, 아키텍처, 구현
2025. 11. 17. 10:44
