토니의 연습장

Why Language Models Hallucinate 본문

AI 일반/논문, 구현

Why Language Models Hallucinate

bellmake 2025. 9. 16. 09:57

핵심 요약

  1. 환각의 본질
    • 언어모델이 확실하지 않을 때도 그럴듯한 답을 "추측"하는 경향이 있음.
    • 이는 신비로운 현상이 아니라 이진 분류 오류의 자연스러운 결과. 사실과 오류를 구분하지 못하면 모델은 확률적으로 잘못된 답변을 만들어냄.
  2. 왜 계속 발생하나?
    • 모델 학습 및 평가 절차가 "모른다"라고 답하는 것보다 추측하는 것을 보상하기 때문.
    • 특히 벤치마크 시험처럼 점수화된 평가에서, 추측은 성적을 올리지만 불확실성 인정은 감점되는 구조임.
    • 결국 모델은 "좋은 수험생"처럼 행동하도록 훈련되어, 신뢰성보다 점수 최적화로 치우침.
  3. 해결책 제안
    • 새로운 환각 전용 평가를 만드는 대신, 기존 벤치마크의 채점 방식을 수정해야 함.
    • 불확실성 인정이 벌점이 아니라 적절히 반영되도록 바꿔야 AI가 더 신뢰할 수 있는 방향으로 발전할 수 있음.
  4. 환각은 단순히 확률적·평가적 압력에서 비롯된 문제이며, 평가 체계의 사회기술적(socio-technical) 변화가 필요하다고 주장

 

Pretraining 이후 fine-tuning, RLHF(인간 피드백을 통한 강화학습), 정제(finetuning), 외부 지식검색(RAG) 등의 기술이 들어가도, 왜 환각이 완전히 사라지지 않는지, 또 어떤 평가 방식이 환각을 장려(reward)하는지를 논함.

평가 체계가 환각을 장려하는 구조

  • 대부분의 벤치마크(benchmarks)와 리더보드(leaderboards)의 주요 평가 metric은 binary scoring (맞으면 1, 틀리면 0) 혹은 pass/fail 혹은 정확도(accuracy) 위주임.
  • 이런 binary grading 방식에서는 “잘못된 상세정보를 섞은 추측(guess)”이 “아무 답도 하지 않거나 불확실성을 인정하는 응답(IDK 또는 “모르겠습니다”)”보다 평균 기대 점수(expected score) 면에서 유리함.
    • 즉, 틀릴 가능성이 있고 누락할 내용이 있어도, “답을 한다(answer)”가 점수를 얻을 기회를 주므로 “추측”이 선택됨. arXiv
    • 반대로 “IDK” 같은 불확실성 표현은 대부분의 벤치마크에서 “0점”으로 처리됨. arXiv
  • 논문에서는 이러한 상황을 일종의 “시험(test-taking)” 환경에 비유함: 학생이 불확실한 문제에서 추측을 하면 정답일 경우 점수를 얻지만, “모르겠습니다”를 하면 점수가 없음. 그러므로 학생(혹은 모델)은 추측을 선택하는 전략을 학습함. arXiv

해결 제안: 평가(scoring) 변경

  • 명시적인 신뢰도(confidence) 기준 삽입 (Explicit confidence targets)
      → 각 문제(prompt)에 대해 “답을 제시할 경우에는 최소 t 이상의 확신(confidence)이 필요하며, 틀리면 벌점(penalty)이 있다”는 형태의 지시문(instruction)을 추가함. 예:
  • “> t 확신이 있을 때만 답하고, 그렇지 않으면 ‘모르겠습니다(IDK)’라고 하세요. 틀릴 경우 벌점 t/(1−t), 정답일 경우 1점, 모르겠습니다는 0점.” arXiv
  • **기존의 주류 평가들(mainstream evaluations)**에도 이런 신뢰도 기준을 통합하자고 함. 평가들이 단순히 정확도만 보는 구조라면, 불확실성 표현은 계속 패널티를 받기 때문. arXiv
  • 행동적 보정(behavioral calibration) 개념 제안:
      모델에게 단순히 확률(confidence score)을 출력하게 하는 것뿐만 아니라, 실제 응답(response)이 “확률이 t 이상이면 답하고, 그렇지 않으면 IDK 한다”는 전략을 모델이 지키도록 요구함. 이렇게 하면 여러 신뢰도 임계값(threshold)에서의 성능을 비교(audit) 가능함.

'AI 일반 > 논문, 구현' 카테고리의 다른 글

MiniGPT-4  (0) 2025.05.26
SAM-CLIP  (1) 2025.05.19
딥러닝 논문 읽는 법  (0) 2025.04.03
ViT (Vision Transformer) 논문 구현하기  (0) 2024.08.28