MLLM / LMM

Notice

Recent Posts

Tags more

Archives

관리 메뉴

토니의 연습장

언어 AI (NLP)/Multimodal (MLLM, LMM)

bellmake 2025. 4. 7. 14:54

MLLM : Multimodal Large Language Model

LMM : Large Multimodal Model

*이미지 인코더 사용방식 / 이미지 토크나이저 사용방식 / 이미지 인코딩하지 않는 방식(fuyu 등)

-> 아래 내용은 이미지 인코더 사용방식

ex1) HPT

ex2) Idefics2

● Architecture
○ Vision Encoder + Connector + LLM

● Data
○ 2 가지 데이터셋 필요
■ pre-train
■ instruction tune

● Evaluation
○ MMMU

ex1) NExT-GPT

ex2) ANYGPT

"결국 GPT(트랜스포머)의 입력은 토큰이기에,

멀티모달 데이터를 토큰으로 변화시키면, 다양한 입력들을 처리할 수 있다"

'언어 AI (NLP)/Multimodal (MLLM, LMM)' Related Articles