본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

토니의 연습장

NeMo 본문

AI 일반/Framework

NeMo

bellmake 2025. 11. 19. 14:38

📌 핵심 요약

✅ NeMo Data Curator의 목적

GPU 가속을 활용해 대규모 데이터셋을 고품질로 정제하는 도구
사전학습(pre-training)에 필요한 대규모 텍스트 데이터의 품질을 높여 모델 성능을 향상함
유저가 다양한 데이터 소스를 유연하게 추가/커스터마이징 가능

✅ 데이터 큐레이션 전체 파이프라인

1. 데이터 다운로드 및 텍스트 추출

Common Crawl, Wikidumps, ArXiv 등에서 원시 데이터 다운로드
필요시 다른 소스도 확장 가능

2. 텍스트 정리 및 리포매팅

깨진 유니코드, 중복, newline 문제 등을 정제
텍스트 클리닝

3. GPU 가속 문서 수준 중복 제거

fuzzy deduplication (비슷한 텍스트도 제거)
exact deduplication (완전히 동일한 텍스트 제거)

4. 문서 수준 품질 필터링

분류기 기반 필터링
(예: 품질 낮은 문서 제거)
다국어 휴리스틱 필터링

5. 데이터 분류

PII(개인정보) 제거
도메인별 필터링
유해성(toxicity) 분류
작업(task) 분류 및 복잡도 필터링

6. 다국어 태스크 오염 제거

특정 벤치마크/평가 데이터가 학습 데이터에 들어가지 않도록 “decontamination”

이후

데이터를 블렌딩하여 최종 학습 데이터셋 구성 → 모델 사전학습에 사용

📌 전체 흐름 한 줄 요약

인터넷 규모의 원시 데이터 → 다운로드 및 텍스트 추출 → 클리닝 → 중복 제거 → 품질 필터링 → PII/도메인/유해성 분류 → 태스크 오염 제거 → 최종 데이터 블렌딩 → 사전학습 모델 훈련

참고 : https://www.nvidia.com/ko-kr/on-demand/session/other2024-t06/?playlistId=playList-20d2763a-14c1-46c7-847c-45bd369b548b

05_Generative AI 학습 플랫폼 NVIDIA NeMo.pdf

티스토리툴바