[Short Review] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

카테고리 없음

[Short Review] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

zzangsky 2026. 5. 9. 21:50

You Only Look Once: Unified, Real-Time Object Detection

We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabili

arxiv.org

1. 배경 및 문제점

존 Fast R-CNN은 detection 속도는 빨라졌지만, 여전히 Selective Search 같은 region proposal 알고리즘이 bottleneck이었다.
Selective Search는 CPU 기반 알고리즘으로 이미지당 약 2초 정도가 필요해 전체 detection 속도를 제한하였다.
기존 object proposal 방법들은 detection network와 별개로 동작하여 convolution feature를 공유하지 못했다.
Multi-scale 처리를 위해 image pyramid나 filter pyramid를 사용하는 방식은 정확도는 높지만 계산량이 매우 크다는 문제가 있었다.
Detection network와 proposal network를 하나로 통합하고, convolution 연산을 공유하는 구조가 필요했다.

2. 아키텍처 특징

Faster R-CNN은 Region Proposal Network(RPN)와 Fast R-CNN detector를 하나의 unified network로 통합하였다.
RPN은 convolution feature map 위를 sliding window 방식으로 탐색하며 object proposal을 생성한다.
각 위치마다 여러 개의 anchor box를 사용하여 다양한 scale과 aspect ratio의 객체를 동시에 예측하였다.
기본적으로 3개의 scale과 3개의 aspect ratio를 사용하여 총 9개의 anchor를 생성하였다.
RPN은 각 anchor에 대해 object 여부(classification score), bounding box 좌표(regression)를 동시에 예측한다.
Proposal network와 detection network가 convolution layer를 공유하기 때문에 region proposal 계산 비용이 매우 작다.
기존 image pyramid 대신 anchor 기반 multi-scale 방식을 사용하여 계산량을 크게 줄였다.
Alternating Training 방식을 사용하여 RPN과 Fast R-CNN을 번갈아 학습하였다.
RoI Pooling을 사용해 proposal 영역을 fixed-length feature vector로 변환하였다.

3. 의의

Region proposal과 object detection을 하나의 CNN으로 통합
Region proposal 계산 속도를 획기적으로 개선
Convolution feature 공유로 매우 높은 효율성 달성
Selective Search 없이도 높은 detection accuracy 달성
Real-time에 가까운 object detection 가능
이후 Faster R-CNN, Mask R-CNN, Feature Pyramid Network 등의 기반 구조가 됨
Two-stage detector의 대표적인 구조 제시

4. 한계

Two-stage 구조라 YOLO 계열보다 여전히 느림
Anchor box hyperparameter 설정 필요
작은 객체 탐지 성능 한계 존재
Region proposal과 detection 단계를 모두 수행해야 해 구조 복잡
학습 과정(alternating training)이 비교적 복잡함
Anchor box 기반의 Region Proposal Network(RPN)를 사용하여 region proposal과 object detection을 하나의 CNN으로 통합한 two-stage object detector

Anchor box 기반의 Region Proposal Network(RPN)를 사용하여 region proposal과 object detection을 하나의 CNN에서 수행하는 고속 two-stage object detection 구조

현재글[Short Review] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

zzangsky 님의 블로그

zzangsky 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

zzangsky 님의 블로그

[Short Review] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

1. 배경 및 문제점

2. 아키텍처 특징

3. 의의

4. 한계

'카테고리 없음'의 다른글

티스토리툴바