토니의 연습장

MLLM / LMM 본문

언어 AI (NLP)/Multimodal (MLLM, LMM)

MLLM / LMM

bellmake 2025. 4. 7. 14:54

MLLM : Multimodal Large Language Model

LMM : Large Multimodal Model

 

*이미지 인코더 사용방식 / 이미지 토크나이저 사용방식 / 이미지 인코딩하지 않는 방식(fuyu 등)

  -> 아래 내용은 이미지 인코더 사용방식

 

 

ex1) HPT

 

Modality Encoder 를 통한 input 을 그대로 입력하면 안 되고, Connector 를 통해 처리해 주어야 함 (3가지 종류 사용 가능)

 

 

ex2) Idefics2

 

 

Architecture
 ○ Vision Encoder + Connector + LLM

Data
 ○ 2 가지 데이터셋 필요
  ■ pre-train
  ■ instruction tune

Evaluation
 ○ MMMU

 

 

 

ex1) NExT-GPT

 

ex2) ANYGPT

 

"결국 GPT(트랜스포머)의 입력은 토큰이기에,

 멀티모달 데이터를 토큰으로 변화시키면, 다양한 입력들을 처리할 수 있다"

 

 

 

 

 

 

참고 : https://youtu.be/PxdWQL1HW0o

         https://youtu.be/PugVEI7cRv0

'언어 AI (NLP) > Multimodal (MLLM, LMM)' 카테고리의 다른 글

MLLM 구현  (0) 2025.05.26