목록2025/09 (9)
토니의 연습장
1. idx가 뭐냐?idx는 토큰 ID 시퀀스를 담고 있는 텐서.예를 들어 batch 크기가 2, 지금까지 생성된 토큰 길이가 10이라고 하면:즉 (배치 크기, 토큰 길이) 형태. idx.shape = (2, 10) 2. idx[:, -context_size:] 뜻: → 모든 배치 선택-context_size: → 마지막 context_size 개 토큰만 잘라오기즉, "현재까지 만들어진 문맥에서 제일 최근 context_size 만큼만 모델 입력으로 사용" 하는 것.3. 왜 이렇게 하냐?언어 모델은 보통 고정된 길이의 입력 창(window) 만 볼 수 있음.예를 들어 모델이 한 번에 최대 128 토큰까지만 볼 수 있다고 하면:지금까지 토큰이 10개면 → 그냥 다 보여줌.지금까지 토큰이 300개면 → 최..
"피클보다 포도"하나의 통 피클보다 (.pkl 파일 한번에 로드되어야 해서 메모리 로드 큼)알알이 mapping 된 포도와 같이 (memory-mapping 된 object 로서 필요한 것만 mapping 으로 찾아 메모리에 로드하여 가벼움)

출처 : https://github.com/rasbt/LLMs-from-scratch/tree/main/ch05/07_gpt_to_llama
train 하면서 주기적으로 evaluation 하고 sample text 를 generation학습하면서 수치적 평가를 병행하며, 동시에 생성 샘플을 통해 성능을 직관적으로 확인해 볼 수 있게 함 def train_model_simple(model, train_loader, val_loader, optimizer, device, num_epochs, eval_freq, eval_iter, start_context, tokenizer): # Initialize lists to track losses and tokens seen train_losses, val_losses, track_tokens_seen = [], [], [] tokens_seen,..
핵심 요약환각의 본질언어모델이 확실하지 않을 때도 그럴듯한 답을 "추측"하는 경향이 있음.이는 신비로운 현상이 아니라 이진 분류 오류의 자연스러운 결과. 사실과 오류를 구분하지 못하면 모델은 확률적으로 잘못된 답변을 만들어냄.왜 계속 발생하나?모델 학습 및 평가 절차가 "모른다"라고 답하는 것보다 추측하는 것을 보상하기 때문.특히 벤치마크 시험처럼 점수화된 평가에서, 추측은 성적을 올리지만 불확실성 인정은 감점되는 구조임.결국 모델은 "좋은 수험생"처럼 행동하도록 훈련되어, 신뢰성보다 점수 최적화로 치우침.해결책 제안새로운 환각 전용 평가를 만드는 대신, 기존 벤치마크의 채점 방식을 수정해야 함.불확실성 인정이 벌점이 아니라 적절히 반영되도록 바꿔야 AI가 더 신뢰할 수 있는 방향으로 발전할 수 있음.환..
더보기핵심 아이디어CLIP은 (이미지, 캡션) 쌍을 대조학습(contrastive) 으로 학습해서, 이미지 임베딩 fIf_IfI과 텍스트 임베딩 fTf_TfT이 같은 벡터 공간(joint space) 에 정렬되도록 만든다. 이때 이미지 인코더(주로 ViT)는 전역 토큰(CLS)과 패치 토큰들에 담긴 의미를 이 공간의 방향들(directions) 로 표현하게 되고, 그 결과:거리/각도(코사인 유사도) 가 곧 의미적 유사성을 뜻한다.전역 임베딩 ggg과 패치 임베딩 ziz_izi의 각도만 봐도, 어떤 패치가 “그 이미지의 정체성/클래스”에 얼마나 기여하는지 가늠할 수 있다.또, 패치들끼리의 유사도 분포만 봐도, 배경과 다른 성격(=의심스러운) 패치가 무엇인지가 드러난다.훈련 관점(왜 가능한가?)CLIP..
1. Step 0: Unsupervised pre-training (비지도 사전 학습)데이터: 저품질의 대규모 인터넷 텍스트 (> 1조 토큰).훈련: 언어모델링 (다음 단어 예측).결과 모델: Pretrained LLM (πθ₀).→ GPT 같은 대형 언어모델의 기본 뼈대가 여기서 만들어짐.2. Step 1: Supervised fine-tuning (지도 미세 조정)데이터: 고품질 시연 데이터 (human demonstration, 즉 사람이 직접 작성한 좋은 대화 예시).훈련: Supervised finetuning (모범적인 답변으로 모델을 미세 조정).결과 모델: SFT 모델 (πθSFT).→ 기본 모델보다 대화형 태스크에 맞게 "훈련된 모델"이 됨.3. Step 2: Fit a reward mo..