https://arxiv.org/abs/1506.02640
You Only Look Once: Unified, Real-Time Object Detection
We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabili
arxiv.org
1. 배경 및 문제점
- 존 Fast R-CNN은 detection 속도는 빨라졌지만, 여전히 Selective Search 같은 region proposal 알고리즘이 bottleneck이었다.
- Selective Search는 CPU 기반 알고리즘으로 이미지당 약 2초 정도가 필요해 전체 detection 속도를 제한하였다.
- 기존 object proposal 방법들은 detection network와 별개로 동작하여 convolution feature를 공유하지 못했다.
- Multi-scale 처리를 위해 image pyramid나 filter pyramid를 사용하는 방식은 정확도는 높지만 계산량이 매우 크다는 문제가 있었다.
- Detection network와 proposal network를 하나로 통합하고, convolution 연산을 공유하는 구조가 필요했다.
2. 아키텍처 특징
- Faster R-CNN은 Region Proposal Network(RPN)와 Fast R-CNN detector를 하나의 unified network로 통합하였다.
- RPN은 convolution feature map 위를 sliding window 방식으로 탐색하며 object proposal을 생성한다.
- 각 위치마다 여러 개의 anchor box를 사용하여 다양한 scale과 aspect ratio의 객체를 동시에 예측하였다.
- 기본적으로 3개의 scale과 3개의 aspect ratio를 사용하여 총 9개의 anchor를 생성하였다.
- RPN은 각 anchor에 대해 object 여부(classification score), bounding box 좌표(regression)를 동시에 예측한다.
- Proposal network와 detection network가 convolution layer를 공유하기 때문에 region proposal 계산 비용이 매우 작다.
- 기존 image pyramid 대신 anchor 기반 multi-scale 방식을 사용하여 계산량을 크게 줄였다.
- Alternating Training 방식을 사용하여 RPN과 Fast R-CNN을 번갈아 학습하였다.
- RoI Pooling을 사용해 proposal 영역을 fixed-length feature vector로 변환하였다.
3. 의의
- Region proposal과 object detection을 하나의 CNN으로 통합
- Region proposal 계산 속도를 획기적으로 개선
- Convolution feature 공유로 매우 높은 효율성 달성
- Selective Search 없이도 높은 detection accuracy 달성
- Real-time에 가까운 object detection 가능
- 이후 Faster R-CNN, Mask R-CNN, Feature Pyramid Network 등의 기반 구조가 됨
- Two-stage detector의 대표적인 구조 제시
4. 한계
- Two-stage 구조라 YOLO 계열보다 여전히 느림
- Anchor box hyperparameter 설정 필요
- 작은 객체 탐지 성능 한계 존재
- Region proposal과 detection 단계를 모두 수행해야 해 구조 복잡
- 학습 과정(alternating training)이 비교적 복잡함
- Anchor box 기반의 Region Proposal Network(RPN)를 사용하여 region proposal과 object detection을 하나의 CNN으로 통합한 two-stage object detector
Anchor box 기반의 Region Proposal Network(RPN)를 사용하여 region proposal과 object detection을 하나의 CNN에서 수행하는 고속 two-stage object detection 구조