목록언어 AI (NLP)/Multimodal (MLLM, LMM) (1)
토니의 연습장

MLLM : Multimodal Large Language ModelLMM : Large Multimodal Model *이미지 인코더 사용방식 / 이미지 토크나이저 사용방식 / 이미지 인코딩하지 않는 방식(fuyu 등) -> 아래 내용은 이미지 인코더 사용방식 ex1) HPT ex2) Idefics2 ● Architecture ○ Vision Encoder + Connector + LLM● Data ○ 2 가지 데이터셋 필요 ■ pre-train ■ instruction tune● Evaluation ○ MMMU ex1) NExT-GPT ex2) ANYGPT "결국 GPT(트랜스포머)의 입력은 토큰이기에, 멀티모달 데이터를 토큰으로 변화시키면, 다양한 입력들을 처리할 수 있다" ..
언어 AI (NLP)/Multimodal (MLLM, LMM)
2025. 4. 7. 14:54