목록AI 일반/논문, 구현 (4)
토니의 연습장

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language ModelsThe recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. Howevearxiv.org Minigpt-4The recent GPT-4 has demonstrated ex..

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understandinghttps://arxiv.org/pdf/2310.15308v4 논문 개요제목 : SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding저자/소속 : Haoxiang Wang (University of Illinois U-C, Apple Intern) 외 Apple 연구진버전 / 날짜 : v4 - 2024-06-10 arXiv1. 연구 동기 & 문제 정의CLIP은 텍스트-이미지 대비 학습으로 “무엇(semantic)”을 잘 파악하지만, 고해상도에 약하고 픽셀 ..

1) 딥러닝 논문을 어떻게 읽을까? 1단계: 외부 맥락 파악하기2단계: 첫 번째 읽기 – 내부 맥락 파악하기 딥러닝 논문을 읽기 어렵게 만드는 5가지 종류의 '알 수 없음(Unknown)'알려져 있다고 암시되는 외부적인 알 수 없음.저자들이 설명하는 내부적인 알 수 없음.저자들이 이해하지 못하는 (또는 해당 분야 전체가 아직 이해하지 못하는) 내부적인 알 수 없음.저자들이 도입한 내부적인 오류 (가끔 발생함).리뷰어들이 추가하라고 해서 들어간 쓸모없는 내용 (보통 눈에 띔). 3단계: 첫 번째 읽기 – 외부 지식의 공백을 채우기4단계: 두 번째 읽기 – 개념적 이해하기5단계: 두 번째 읽기 – 코드 심층 이해 2) 딥러닝 코드베이스를 어떻게 읽을까? 0단계: 논문을 읽어서 맥락 정보를 파악한다.1단계:..

[ 참고 ] helper_functions.py"""A series of helper functions used throughout the course.If a function gets defined once and could be used over and over, it'll go in here."""import torchimport matplotlib.pyplot as pltimport numpy as npfrom torch import nnimport osimport zipfilefrom pathlib import Pathimport requests# Walk through an image classification directory and find out how many files (images)..