bellmake 2024. 8. 30. 16:42

실시간 작동을 위한 속도에도 주안점을 둔 object detection 모델입니다.

한 번의 loss 계산으로 detection 문제를 해결하며, 모델 성능 개선 / 모델 효율 개선 등 번갈아가며 현재 v10까지 나온 상태입니다.

 

YOLO v1 (2016)

DarkNet (convolution network) : Backbone

224*224로 이미지 조정하여 학습 후 7*7*256의 output feature로 출력되고, 448*448 Detection을 실시합니다.

총 7*7 grid로 embedding 됩니다.

Grid cell 당 2개의 bounding box가 설정되며, Cell 당 object confidence score / bounding box / class probability 정보 output이 나오게 됩니다.

 

YOLO v2 (2017)

DarkNet19

여러 해상도의 feature map을 합쳐서 v1에 비해 작은 객체에 대한 성능을 향상시켰습니다.

448*448로 학습 후, 448*448로 Detection을 실시합니다.

Batch Normalization을 적용합니다.

Grid cell 당 5개의 anchor box가 설정됩니다.

 

YOLO v3 (2018)

Layer가 커진 만큼 정확도는 향상되었으나, 속도는 느려졌습니다.

DarkNet53 - residual 구성이 적용되었습니다.

Feature Pyramid Network - upsampling 후 concat이 적용되었습니다.

Grid 하나에 multi label classification이 이루어집니다.

 

YOLO v4 (2020)

모델이 확대되고 효율화되었습니다.

CSP DarkNet53

Data augmentation :CutOut, MixUp, CutMix, Mosaic 이 적용되었습니다.

 

YOLO v5 (2020)

모델이 세분화되었습니다.

다양한 크기의 network를 사용하여 상황에 맞는 선택이 가능하게 되었습니다. (속도와 정확도 간의 trade-off 선택)

 

YOLO v6,7,8 (2022, 2023)

미세한 모델 조정 및 학습 방법 조정이 되었습니다.