목록비전 AI (VISION)/Stable Diffusion (5)
토니의 연습장

Replicate AI - FLUX LoRA 모델 사용출처 : https://youtu.be/c1fCRP9S1NQ Replicate - Run AI with an APIDeploying machine learning models at scale is hard. If you've tried, you know. API servers, weird dependencies, enormous model weights, CUDA, GPUs, batching.replicate.com Pixel DOJO - FLUX LoRA 모델 사용출처 : https://youtu.be/OoMGLfXCzsI https://fluxproweb.com/flux-ai-image-generator/ Free Flux AI Online f..

Stable Diffusion 모델을 개인의 custom model로 fine tuning 하기는 쉽지 않습니다.또한, 자원 및 데이터의 제한 문제와 함께 신규 데이터셋을 통해 재학습 했을 때 발생할 수 있는 문제도 있습니다.(모델 전체 학습 : 학습의 효율성 문제 / 일부 layer 학습 : 성능의 문제)이를 해결하기 위해 도입할 수 있는 기법 중 하나가 PEFT 기술 중 하나인 LoRA로써, 이는 대규모 사전학습된 언어 모델을 적용하는 과정에서 fine tuning 하기 위해 NLP에서 가장 먼저 도입되었으며, Fine tuning 학습시간을 감소시키면서도 Base model의 기본 성능을 저해하지 않습니다. 해당 기법의 원리를 간단히 요약하면, 위 그림에서와 같이 Pretrained Weights..

Without mask : unet input channel은 4로 입력됩니다. (latent)With mask : unet input channel이 9로 입력됩니다. (latent, mask, masked_image_latents) [ 참고 ]test_sd_inpainting.pyfrom diffusers import StableDiffusionInpaintPipelinefrom PIL import Imagefrom PIL import ImageOpsimport torchimport numpy as npimport cv2pipe = StableDiffusionInpaintPipeline.from_pretrained('runwayml/stable-diffusion-inpainting', revision..

[ 참고 ]sd_txt2img.pyfrom diffusers import StableDiffusionPipelineimport torchmodel_id = "runwayml/stable-diffusion-v1-5"pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)pipe = pipe.to("cuda")prompt = "a photo of an astronaut riding a horse on mars"image = pipe(prompt).images[0]image.save("astronaut_rides_horse.png") StableDiffusionPipelineclass StableDiffusionPi..

1. Pixel Space: VAE encoding/decoding (512x512 64x64) 2. Diffusion Model: U-Net 3. Conditioning: Text guide - CLIP을 활용해 Text로부터 embedding vector를 뽑아내 Tau vector로 활용하여 model에 attention을 반복적으로 줍니다. - CLIP의 CLIPTextModel, CLIPTokenizer가 활용됩니다. - CLIPVisionModel은 SD를 통해 생성된 이미지 중 폭력성/음란성 등을 검열하기 위한 과정에 사용됩니다. 4. Image Generation: Diffusion Process는 생략되고, Conditioning의 Random한 Latent Vector로부터 Te..