토니의 연습장

NeMo 본문

AI 일반/Framework

NeMo

bellmake 2025. 11. 19. 14:38

 

 


📌 핵심 요약

NeMo Data Curator의 목적

  • GPU 가속을 활용해 대규모 데이터셋을 고품질로 정제하는 도구
  • 사전학습(pre-training)에 필요한 대규모 텍스트 데이터의 품질을 높여 모델 성능을 향상
  • 유저가 다양한 데이터 소스를 유연하게 추가/커스터마이징 가능

데이터 큐레이션 전체 파이프라인

1. 데이터 다운로드 및 텍스트 추출

  • Common Crawl, Wikidumps, ArXiv 등에서 원시 데이터 다운로드
  • 필요시 다른 소스도 확장 가능

2. 텍스트 정리 및 리포매팅

  • 깨진 유니코드, 중복, newline 문제 등을 정제
  • 텍스트 클리닝

3. GPU 가속 문서 수준 중복 제거

  • fuzzy deduplication (비슷한 텍스트도 제거)
  • exact deduplication (완전히 동일한 텍스트 제거)

4. 문서 수준 품질 필터링

  • 분류기 기반 필터링
    (예: 품질 낮은 문서 제거)
  • 다국어 휴리스틱 필터링

5. 데이터 분류

  • PII(개인정보) 제거
  • 도메인별 필터링
  • 유해성(toxicity) 분류
  • 작업(task) 분류 및 복잡도 필터링

6. 다국어 태스크 오염 제거

  • 특정 벤치마크/평가 데이터가 학습 데이터에 들어가지 않도록 “decontamination”

이후

  • 데이터를 블렌딩하여 최종 학습 데이터셋 구성 → 모델 사전학습에 사용

📌 전체 흐름 한 줄 요약

인터넷 규모의 원시 데이터 → 다운로드 및 텍스트 추출 → 클리닝 → 중복 제거 → 품질 필터링 → PII/도메인/유해성 분류 → 태스크 오염 제거 → 최종 데이터 블렌딩 → 사전학습 모델 훈련

 


 

 

 


 

 



 

 

 

 


참고 : https://www.nvidia.com/ko-kr/on-demand/session/other2024-t06/?playlistId=playList-20d2763a-14c1-46c7-847c-45bd369b548b  

 

05_Generative AI 학습 플랫폼 NVIDIA NeMo.pdf
3.56MB