토니의 연습장
Transformer vs LLaMA 모델 비교 본문
- Grouped Multi-Query Attention
- KV Cache
'AI 일반 > 모델, 아키텍처, 구현' 카테고리의 다른 글
RLHF / DPO (ft. Pretrained -> SFT -> Reward -> Final model) (0) | 2025.09.05 |
---|---|
실무에서의 Embedding 모델 종류 (Text Embedding) (0) | 2025.07.17 |
pytorch 구현함수 내부 (0) | 2025.06.17 |
LayerNorm 과 BatchNorm (1) | 2025.05.28 |
causal mask (1) | 2025.05.28 |