토니의 연습장
NeMo 본문


📌 핵심 요약
✅ NeMo Data Curator의 목적
- GPU 가속을 활용해 대규모 데이터셋을 고품질로 정제하는 도구
- 사전학습(pre-training)에 필요한 대규모 텍스트 데이터의 품질을 높여 모델 성능을 향상함
- 유저가 다양한 데이터 소스를 유연하게 추가/커스터마이징 가능
✅ 데이터 큐레이션 전체 파이프라인
1. 데이터 다운로드 및 텍스트 추출
- Common Crawl, Wikidumps, ArXiv 등에서 원시 데이터 다운로드
- 필요시 다른 소스도 확장 가능
2. 텍스트 정리 및 리포매팅
- 깨진 유니코드, 중복, newline 문제 등을 정제
- 텍스트 클리닝
3. GPU 가속 문서 수준 중복 제거
- fuzzy deduplication (비슷한 텍스트도 제거)
- exact deduplication (완전히 동일한 텍스트 제거)
4. 문서 수준 품질 필터링
- 분류기 기반 필터링
(예: 품질 낮은 문서 제거) - 다국어 휴리스틱 필터링
5. 데이터 분류
- PII(개인정보) 제거
- 도메인별 필터링
- 유해성(toxicity) 분류
- 작업(task) 분류 및 복잡도 필터링
6. 다국어 태스크 오염 제거
- 특정 벤치마크/평가 데이터가 학습 데이터에 들어가지 않도록 “decontamination”
이후
- 데이터를 블렌딩하여 최종 학습 데이터셋 구성 → 모델 사전학습에 사용
📌 전체 흐름 한 줄 요약
인터넷 규모의 원시 데이터 → 다운로드 및 텍스트 추출 → 클리닝 → 중복 제거 → 품질 필터링 → PII/도메인/유해성 분류 → 태스크 오염 제거 → 최종 데이터 블렌딩 → 사전학습 모델 훈련





