토니의 연습장
MLLM / LMM 본문
MLLM : Multimodal Large Language Model
LMM : Large Multimodal Model
*이미지 인코더 사용방식 / 이미지 토크나이저 사용방식 / 이미지 인코딩하지 않는 방식(fuyu 등)
-> 아래 내용은 이미지 인코더 사용방식
ex1) HPT
ex2) Idefics2
● Architecture
○ Vision Encoder + Connector + LLM
● Data
○ 2 가지 데이터셋 필요
■ pre-train
■ instruction tune
● Evaluation
○ MMMU
ex1) NExT-GPT
ex2) ANYGPT
"결국 GPT(트랜스포머)의 입력은 토큰이기에,
멀티모달 데이터를 토큰으로 변화시키면, 다양한 입력들을 처리할 수 있다"
'언어 AI (NLP) > Multimodal (MLLM, LMM)' 카테고리의 다른 글
MLLM 구현 (0) | 2025.05.26 |
---|