토니의 연습장
Why Language Models Hallucinate 본문
핵심 요약
- 환각의 본질
- 언어모델이 확실하지 않을 때도 그럴듯한 답을 "추측"하는 경향이 있음.
- 이는 신비로운 현상이 아니라 이진 분류 오류의 자연스러운 결과. 사실과 오류를 구분하지 못하면 모델은 확률적으로 잘못된 답변을 만들어냄.
- 왜 계속 발생하나?
- 모델 학습 및 평가 절차가 "모른다"라고 답하는 것보다 추측하는 것을 보상하기 때문.
- 특히 벤치마크 시험처럼 점수화된 평가에서, 추측은 성적을 올리지만 불확실성 인정은 감점되는 구조임.
- 결국 모델은 "좋은 수험생"처럼 행동하도록 훈련되어, 신뢰성보다 점수 최적화로 치우침.
- 해결책 제안
- 새로운 환각 전용 평가를 만드는 대신, 기존 벤치마크의 채점 방식을 수정해야 함.
- 불확실성 인정이 벌점이 아니라 적절히 반영되도록 바꿔야 AI가 더 신뢰할 수 있는 방향으로 발전할 수 있음.
- 환각은 단순히 확률적·평가적 압력에서 비롯된 문제이며, 평가 체계의 사회기술적(socio-technical) 변화가 필요하다고 주장
Pretraining 이후 fine-tuning, RLHF(인간 피드백을 통한 강화학습), 정제(finetuning), 외부 지식검색(RAG) 등의 기술이 들어가도, 왜 환각이 완전히 사라지지 않는지, 또 어떤 평가 방식이 환각을 장려(reward)하는지를 논함.
평가 체계가 환각을 장려하는 구조
- 대부분의 벤치마크(benchmarks)와 리더보드(leaderboards)의 주요 평가 metric은 binary scoring (맞으면 1, 틀리면 0) 혹은 pass/fail 혹은 정확도(accuracy) 위주임.
- 이런 binary grading 방식에서는 “잘못된 상세정보를 섞은 추측(guess)”이 “아무 답도 하지 않거나 불확실성을 인정하는 응답(IDK 또는 “모르겠습니다”)”보다 평균 기대 점수(expected score) 면에서 유리함.
- 논문에서는 이러한 상황을 일종의 “시험(test-taking)” 환경에 비유함: 학생이 불확실한 문제에서 추측을 하면 정답일 경우 점수를 얻지만, “모르겠습니다”를 하면 점수가 없음. 그러므로 학생(혹은 모델)은 추측을 선택하는 전략을 학습함. arXiv
해결 제안: 평가(scoring) 변경
- 명시적인 신뢰도(confidence) 기준 삽입 (Explicit confidence targets)
→ 각 문제(prompt)에 대해 “답을 제시할 경우에는 최소 t 이상의 확신(confidence)이 필요하며, 틀리면 벌점(penalty)이 있다”는 형태의 지시문(instruction)을 추가함. 예: - “> t 확신이 있을 때만 답하고, 그렇지 않으면 ‘모르겠습니다(IDK)’라고 하세요. 틀릴 경우 벌점 t/(1−t), 정답일 경우 1점, 모르겠습니다는 0점.” arXiv
- **기존의 주류 평가들(mainstream evaluations)**에도 이런 신뢰도 기준을 통합하자고 함. 평가들이 단순히 정확도만 보는 구조라면, 불확실성 표현은 계속 패널티를 받기 때문. arXiv
- 행동적 보정(behavioral calibration) 개념 제안:
모델에게 단순히 확률(confidence score)을 출력하게 하는 것뿐만 아니라, 실제 응답(response)이 “확률이 t 이상이면 답하고, 그렇지 않으면 IDK 한다”는 전략을 모델이 지키도록 요구함. 이렇게 하면 여러 신뢰도 임계값(threshold)에서의 성능을 비교(audit) 가능함.
'AI 일반 > 논문, 구현' 카테고리의 다른 글
MiniGPT-4 (0) | 2025.05.26 |
---|---|
SAM-CLIP (1) | 2025.05.19 |
딥러닝 논문 읽는 법 (0) | 2025.04.03 |
ViT (Vision Transformer) 논문 구현하기 (0) | 2024.08.28 |