본문 바로가기

토니의 연습장

검색하기
토니의 연습장
프로필사진 bellmake

  • 분류 전체보기 (129) N
    • 언어 AI (NLP) (43)
      • LLM & RAG & Agent (35)
      • Multimodal (MLLM, LMM) (7)
      • MCP (0)
      • 서비스 관련지식 (1)
    • AI 일반 (35) N
      • 논문, 구현 (6)
      • 모델, 아키텍처, 구현 (22) N
      • AI 면접 대비 기출문제 (5)
      • MLOps (2)
    • 비전 AI (VISION) (17)
      • Physical AI (1)
      • Stable Diffusion (5)
      • CLIP (4)
      • ComfyUI (3)
      • Segmentation (1)
      • GAN (1)
      • YOLO (1)
      • AI Agent (1)
    • 기타 (11)
      • 환경 & 라이브러리 (vscode, Conda, .. (6)
      • Miscellaneous (4)
    • Algorithm (19)
      • Ch 1. 기초 자료구조 (2)
      • Ch 2. 기초 알고리즘 (5)
      • Ch 3. 응용 자료구조 (5)
      • Ch 4. 응용 알고리즘 (2)
      • CH 5. 응용 문제 (5)
Guestbook
Notice
Recent Posts
Recent Comments
Link
«   2025/11   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
Tags
more
Archives
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록2025/11/17 (1)

토니의 연습장

Pretrain, SFT, RL

Pretraining -> SFT (Supervised Fine-Tuning) -> RL (Reinforcement Learning) RL 을 하다보면, 기존에 없던 능력을 unlock 해내는 'aha moment' 가 생기는 것을 발견하게 됩니다. Pretraining -> SFT (Supervised Fine-Tuning) -> RL (Reinforcement Learning) (distillation) 이제 강화 학습(RL)을 통해 추론 능력..

AI 일반/모델, 아키텍처, 구현 2025. 11. 17. 10:44
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바