목록2025/03 (14)
토니의 연습장

DDP : Distributed Data ParallelDMP : Distributed Model Parallel출처 : https://youtu.be/Wer9odeBWNg without accumulation : 순차 처리 방식with accumulation : 병렬 처리 방식 (multi-gpu)출처 : https://youtu.be/toUSzwR0EV8
📌 F1 Score란?F1 Score는 **Precision(정밀도)**과 **Recall(재현율)**의 **조화 평균(harmonic mean)**으로 계산되며, 불균형한 데이터셋에서 모델의 성능을 평가할 때 중요한 지표입니다.F1=2×Precision×RecallPrecision+RecallF1 = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}F1=Precision+Recall2×Precision×Recall이 공식은 Precision과 Recall을 균형 있게 반영하여, 둘 중 하나가 너무 낮을 경우 전체 점수도 낮아지도록 설계되었습니다.🚀 Precision (정밀도)Precision..
보호되어 있는 글입니다.
🚩 핵심 요약SGD(Stochastic Gradient Descent) vs Adam(Adaptive Moment Estimation)구분SGD (확률적 경사 하강법)Adam (적응형 모멘트 추정)핵심 아이디어단순히 Gradient 방향으로 조금씩 움직이는 기본적인 방식Gradient의 Momentum 및 Adaptive learning rate 사용학습 속도비교적 느림. 최적의 지점을 찾기까지 시간이 오래 걸릴 수 있음상대적으로 빠름. 더 빨리 최적 지점으로 수렴하는 경향이 있음Learning Rate고정값 (수동으로 조정 필요)학습 도중 자동 조정 (적응형 learning rate)Momentum 사용기본적인 SGD에는 없음 (Momentum SGD는 별도의 기법)Momentum 개념 포함 (과거의..

출처 : https://youtu.be/i5ZSURAoAfI너무 업데이트가 오래 걸리는 단점 해결 위해 stocastic gradient descent 가 나옴 📌 구체적 원리 (Gradient 계산 과정)좀 더 직관적으로 살펴보자면,전체 데이터가 1,000,000개 있다고 해봐.Batch Gradient Descent는 매번 1,000,000개의 모든 데이터를 계산해서 Gradient를 구한 뒤 한 번 업데이트.SGD는 매번 랜덤하게 1개 또는 10개 정도의 데이터만 가지고 Gradient를 구한 뒤 한 번 업데이트.이렇게 하면:방식1회 업데이트 시 데이터 수업데이트 속도1 epoch 당 업데이트 횟수Batch Gradient Descent1,000,000개매우 느림1번Mini-batch SGD (일..
*PDFRAG class 는 하단의 코드 참고from myrag import PDFRAG# 질문에 대한 답변하는 함수를 생성def ask_question_with_llm(llm): # PDFRAG 객체 생성 rag = PDFRAG( "data/SPRI_AI_Brief_2023년12월호_F.pdf", llm, ) # 검색기(retriever) 생성 retriever = rag.create_retriever() # 체인(chain) 생성 rag_chain = rag.create_chain(retriever) def _ask_question(inputs: dict): # 질문에 대한 컨텍스트 검색 context = r..