토니의 연습장
Gradient descent 본문
출처 : https://youtu.be/i5ZSURAoAfI
너무 업데이트가 오래 걸리는 단점 해결 위해 stocastic gradient descent 가 나옴
📌 구체적 원리 (Gradient 계산 과정)
좀 더 직관적으로 살펴보자면,
- 전체 데이터가 1,000,000개 있다고 해봐.
- Batch Gradient Descent는 매번 1,000,000개의 모든 데이터를 계산해서 Gradient를 구한 뒤 한 번 업데이트.
- SGD는 매번 랜덤하게 1개 또는 10개 정도의 데이터만 가지고 Gradient를 구한 뒤 한 번 업데이트.
이렇게 하면:
방식1회 업데이트 시 데이터 수업데이트 속도1 epoch 당 업데이트 횟수
Batch Gradient Descent | 1,000,000개 | 매우 느림 | 1번 |
Mini-batch SGD (일반적) | 32~128개 (주로 사용됨) | 빠름 | 수천~수만 번 |
Pure SGD (1개씩) | 1개 | 매우 빠름 | 1,000,000번 |
이렇게 해서 SGD는 데이터를 나눠서 빠르게 업데이트를 반복할 수 있고,
이를 통해 가중치 업데이트를 빈번하게 할 수 있어 학습이 빠르게 진행돼.
'AI 일반 > AI 면접 대비 기출문제' 카테고리의 다른 글
Transformer 요약 (0) | 2025.03.15 |
---|---|
F1 Score: Precision과 Recall의 조화 평균 (0) | 2025.03.12 |
ML/AI 엔지니어 면접 문항 총정리 (0) | 2025.03.12 |
SGD와 Adam 차이 (1) | 2025.03.08 |