토니의 연습장

SAM-CLIP 본문

AI 일반/논문, 구현

SAM-CLIP

bellmake 2025. 5. 19. 14:13

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

https://arxiv.org/pdf/2310.15308v4

 

논문 개요

제목 : SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
저자/소속 : Haoxiang Wang (University of Illinois U-C, Apple Intern) 외 Apple 연구진
버전 / 날짜 : v4 - 2024-06-10 arXiv


1. 연구 동기 & 문제 정의

  • CLIP텍스트-이미지 대비 학습으로 “무엇(semantic)”을 잘 파악하지만, 고해상도에 약하고 픽셀 단위 위치 정보가 빈약.
  • SAM(Segment Anything Model)은 인스턴스 분할을 통해 “어디(spatial)”를 정확히 찾지만, 텍스트 의미 이해 능력이 거의 없음.
  • 두 모델을 따로 돌리면 저장 공간·추론 계산량이 2배이고, 상호보완적 학습도 불가능.
  • 기존 CLIP ViT를 SAM 해상도(1024 px 이상)로 쓰면 비효율이므로, SAM의 ViT-Det 백본을 출발점으로 삼아 두 모델의 능력을 하나로 합치는 방법을 제안. arXivar5iv

2. SAM-CLIP 구조

구성 요소설명
공유 이미지 백본 SAM ViT-Det (B, L) 가중치로 초기화 → 고해상도 입력(1024 px)을 효율적으로 처리
CLIP 헤드 이미지 특성을 텍스트 임베딩 공간으로 사상하는 프로젝션 MLP + OpenAI CLIP 텍스트 인코더
SAM 헤드 원본 SAM의 마스크 디코더·프롬프트 인코더 그대로 유지
학습 파이프라인 ① SAM 가중치 로드 → ② CLIP 헤드 추가 → ③ “계속학습(continual) + 지식 증류(distillation)”로 두 과제를 번갈아 미니배치 학습
 

핵심 아이디어: 원본 프리트레인 데이터를 10 %만 재사용하면서도, 리플레이(replay) 데이터와 멀티태스크 증류 손실로 **망각(catastrophic forgetting)**을 억제한다. ar5ivar5iv


3. 학습 세부 전략

  1. 데이터 준비
    • 텍스트-이미지 페어: DataComp-1B, LAION-2B 중 1 % 샘플
    • 분할 마스크: COCO / LVIS 일부 + SAM 자체 마스크 일부
  2. 손실 함수
    • CLIP 대비 학습 손실 L<sub>CLIP</sub>L<sub>CLIP</sub>
    • SAM 인스턴스 분할 손실 L<sub>SAM</sub>L<sub>SAM</sub>
    • 증류 손실 : 두 교사 모델(SAM, CLIP) 출력을 모방
    • 최종 손실 : L=λ1LCLIP+λ2LSAM+λ3LdistillL = \lambda_{1}L_{CLIP} + \lambda_{2}L_{SAM} + \lambda_{3}L_{distill}
  3. 계속학습 스케줄
    • Stage-1 : CLIP 작업 비중 ↑, SAM 리플레이 ↓
    • Stage-2 : 두 작업 균형 → 파라미터 미세 조정
  4. 메모리·연산 절감
    • 단일 백본 덕분에 추론 FLOPs 약 40 % 절감, 파라미터 수 2 → 1 모델 ar5iv

4. 실험 결과 (주요 벤치마크)

작업데이터셋SAM-CLIP개별 모델 대비
Zero-shot Semantic Segmentation Pascal-VOC mIoU 66.0 % +6.8 %p 기존 SOTA ar5iv
  COCO-Stuff mIoU 52.9 % +5.9 %p
Zero-shot Instance Segmentation COCO / LVIS SAM 수준 유지 (AP 차이 ≤ 0.3)  
Zero-shot Classification ImageNet-1k (336 px) Top-1 80.5 % CLIP(DataComp1B) 81.3 % 대비 -0.8 %
Image-Text Retrieval Flickr30k R@1 94.0 % CLIP 동급
 

결론: 본래 두 모델의 대표 과제 성능을 거의 유지하면서, 새로운 과제(텍스트 기반 의미 분할)에서 큰 폭으로 SOTA 달성 ar5iv


5. 분석 및 시사점

  • 표현 풍부도 증가 : Head probing 실험에서 SAM-CLIP 백본이 spatial + semantic 특성을 모두 포착 → 추가 다운스트림 과제 적응력이 우수 ar5iv
  • 경량 멀티태스크 모델 : Edge GPU/모바일 환경에서 메모리·추론 시간 반감—로컬 애플리케이션, AR 기기 등에 유리
  • 범용 모델 병합 프레임워크 : 언어·음성·depth 등 서로 다른 목표로 학습된 Foundation Model들을 단계적으로 합칠 수 있는 일반 레시피 제시

6. 한계와 향후 과제

  1. 원본 데이터 일부(≈10 %) 접근 필요 → 프라이버시·라이선스 이슈가 남음
  2. CLIP Retrieval·분류에서 소폭 감소 : 추가 정밀 튜닝 or 어댑터 방식 연구 필요
  3. 다중 모달 병합 시 간섭 문제 : 더 다양한 조합(SAM + DINOv2, CLIP + Depth 모델 등)에서의 그라디언트 충돌 완화 기법 탐색

✍️ 정리

SAM-CLIP은 “고해상도 공간 인지” 능력을 가진 SAM과 “언어 의미 이해” 능력을 가진 CLIP을 단일 ViT-Det 백본으로 이어 붙여, 저장·추론 효율을 대폭 높이면서 서로의 강점을 상호 보완한다. 특히 텍스트 프롬프트만으로 장면을 분할하는 Zero-shot Semantic Segmentation에서 새로운 SOTA를 달성해 비정의(annotation-free) 시각 이해의 가능성을 확장했다.

 

 

수식 원문


1. 각 기호가 뜻하는 것

2. 무엇을 최소화하나?

  • 벡터 내적(또는 코사인 유사도)이 1에 가까울수록 두 임베딩이 동일
  • 손실을 1−1-유사도로 정의하면LCLIP  ↓  ⟺  zs ⁣Tzt  ↑ \mathcal{L}_{\text{CLIP}} \;\downarrow \;\Longleftrightarrow\; z_s^{\!T}z_t \;\uparrow학생(SAM-CLIP) 임베딩을 교사(CLIP) 임베딩과 최대한 같게 만들도록 학습된다.

3. 왜 필요한가?

  1. 지식 증류(knowledge distillation)
    • SAM-CLIP이 CLIP의 “텍스트-정렬 의미 정보”를 그대로 계승하도록 강제
  2. 공유 백본 한 개만 유지
    • CLIP 별도 백본을 두지 않고도 분류·검색 성능을 보존
  3. 상호보완 특성 결합
    • 이후에는 같은 임베딩으로 텍스트 조건 분할·이미지 검색 모두 수행 가능

4. 직관적 요약

SAM-CLIP이 뽑아낸 이미지 표현이, 원래 CLIP이 뽑던 표현과 최대한 똑같아지도록
평균적으로( E\mathbb{E} ) 거리를 줄여나가는 손실 항.”

결국 이 수식은 SAM 기반 고해상도 백본CLIP의 의미 공간을 주입하는 핵심 메커니즘이다.

'AI 일반 > 논문, 구현' 카테고리의 다른 글

MiniGPT-4  (0) 2025.05.26
딥러닝 논문 읽는 법  (0) 2025.04.03
ViT (Vision Transformer) 논문 구현하기  (0) 2024.08.28