토니의 연습장
YOLO 본문
실시간 작동을 위한 속도에도 주안점을 둔 object detection 모델입니다.
한 번의 loss 계산으로 detection 문제를 해결하며, 모델 성능 개선 / 모델 효율 개선 등 번갈아가며 현재 v10까지 나온 상태입니다.
YOLO v1 (2016)
DarkNet (convolution network) : Backbone
224*224로 이미지 조정하여 학습 후 7*7*256의 output feature로 출력되고, 448*448 Detection을 실시합니다.
총 7*7 grid로 embedding 됩니다.
Grid cell 당 2개의 bounding box가 설정되며, Cell 당 object confidence score / bounding box / class probability 정보 output이 나오게 됩니다.
YOLO v2 (2017)
DarkNet19
여러 해상도의 feature map을 합쳐서 v1에 비해 작은 객체에 대한 성능을 향상시켰습니다.
448*448로 학습 후, 448*448로 Detection을 실시합니다.
Batch Normalization을 적용합니다.
Grid cell 당 5개의 anchor box가 설정됩니다.
YOLO v3 (2018)
Layer가 커진 만큼 정확도는 향상되었으나, 속도는 느려졌습니다.
DarkNet53 - residual 구성이 적용되었습니다.
Feature Pyramid Network - upsampling 후 concat이 적용되었습니다.
Grid 하나에 multi label classification이 이루어집니다.
YOLO v4 (2020)
모델이 확대되고 효율화되었습니다.
CSP DarkNet53
Data augmentation :CutOut, MixUp, CutMix, Mosaic 이 적용되었습니다.
YOLO v5 (2020)
모델이 세분화되었습니다.
다양한 크기의 network를 사용하여 상황에 맞는 선택이 가능하게 되었습니다. (속도와 정확도 간의 trade-off 선택)
YOLO v6,7,8 (2022, 2023)
미세한 모델 조정 및 학습 방법 조정이 되었습니다.