RLHF / DPO (ft. Pretrained -> SFT -> Reward -> Final model)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

토니의 연습장

AI 일반/모델, 아키텍처, 구현

bellmake 2025. 9. 5. 13:17

데이터: 비교 데이터 (Comparison data, 사람이 두 개의 응답 중 더 좋은 것을 선택).
훈련: Classification 모델로 (prompt, winning response, losing response)를 입력받아 점수를 매기는 보상 모델(rφ)을 학습.
결과 모델: Reward model.
→ 이제 모델의 응답 품질을 수치(스칼라 점수)로 평가할 수 있게 됨.

✅ 요약:

“학습 시, reward 간의 차이만 고려.”
→ 보상 모델을 학습할 때, 절대적인 보상값이 아니라 두 응답 간 상대적인 보상 차이만 사용한다는 의미야. (예: 응답 A가 B보다 낫다)
“prompt마다 실제 rϕr_\phi는 임의의 방향으로 shift할 가능성 존재.”
→ 보상 함수 rϕr_\phi가 각 프롬프트마다 일정한 기준선(absolute scale)을 가지지 않고, 임의의 offset이나 shift가 생길 수 있다는 뜻이야. 즉, 보상의 절대 크기에는 의미가 없고 상대적 순위만 중요하기 때문에, 프롬프트마다 전체 보상 분포가 이동할 수 있음.
불안정성: 보상 모델이 프롬프트별로 기준선을 다르게 잡아버리면, 정책(policy) 모델 학습 시 안정성이 떨어질 수 있음.
자유도 증가: “degree of freedom”이 늘어난다는 건, 보상 모델이 꼭 필요한 방향만 학습하지 않고 불필요한 변화를 가져올 수 있다는 문제를 뜻함.
실무적 해석: 결국 PPO 기반 RLHF는 이런 reward shift 문제 때문에 불안정성이 생기고, policy 모델이 최적화되기 어렵다는 점을 강조.

GPT/Llama 아키텍처 (0)	2025.09.18
LLM train/eval/generate 간단한 예시 (0)	2025.09.18
SSL (Self-Supervised Learning) (1)	2025.08.26
실무에서의 Embedding 모델 종류 (Text Embedding) (0)	2025.07.17
Transformer vs LLaMA 모델 비교 (0)	2025.06.17

'AI 일반/모델, 아키텍처, 구현' Related Articles