Skip to content

Latest commit

 

History

History
62 lines (32 loc) · 3.01 KB

LIDAR R-CNN(2021, CVPR 2021) 3c493b40c47a4320a754f864687fccb6.md

File metadata and controls

62 lines (32 loc) · 3.01 KB

LIDAR R-CNN(2021, CVPR 2021)

GitHub - tusen-ai/LiDAR_RCNN: LiDAR R-CNN: An Efficient and Universal 3D Object Detector

Characteristic(Contributions)

  • PointNet 기반의 second stage detector를 고안하여 현존하는 어떤 3D detector에도 적용이 가능함
  • Point-based R-CNN detector의 size ambiguity 문제를 발견하여, 이를 단순한 구조로 해결 및 성능향상을 이뤄냄(Virtual points 방법을 통해 points이외의 공간이 무시되는 현상을 해결함)

Model Structure

Untitled

Untitled

본 논문에서 사용한 PointNet 구조이다. 각기 다른 방법의 3D detector에 사용할 수 있도록 input data는 각 포엔트마다 3 혹은 그보다 더 많은 채널수를 가질 수 있다. Classification branch의 c+1은 background class를 의미한다.

Untitled

일반적으로 사용되는 방식들과 Virtual point 방식에 대한 도식이다.

(a) Point pooling 방식의 경우 dash선의 두개의 bbox가 동일한 points들을 추출한다. 이 box들은 ground truth에 대해 각기 다른 IoU를 가지게 되고, 이는 R-CNN module의 학습에 혼란을 야기한다.

(b) Size normalization의 경우 이러한 문제를 해결하지만, 객체의 형태가 변형되어 distortion이 발생한다.

(c) 각 category별 anchor를 설계하는 방식은 ground truth가 fixed anchor의 크기보다 클때 bbox의 정확한 위치를 반환하지 못한다.

(d) Voxelization 방식의 경우 voxel의 경계를 파악할 수는 있지만, 여전히 anchor에서 발생했던 것과 같이 정확한 경계를 반환하지 못한다.

(e) 이를 해결하기 위한 단순한 방법으로는 proposal에 대한 각 point들의 거리값(boundary offset)값을 포함하는 방법이 있다.

(f) Boundary offset의 확장으로 가상의 점들을 추가하여 실제 point들과 가상의 point들을 기반으로 object의 경계를 추론하여 size ambiguity를 최소화 한다.

Loss Function

Untitled

Untitled

Untitled

$L_{cls}$ : Softmax cross entropy loss(classification)

$L_{reg}$ : Smooth L1 regression loss(orientation)

$B$ : Batch size

$\lambda$ : Weighted sum coefficient

$L$ : Total loss

Model Performance

Inference accuracy

  • For Waymo validation set

Untitled

Inference speed

  • For KITTI dataset with a RTX 2080Ti GPU(13.45 TOPS(FP32), Tensor Cores 544, CUDA Cores 4352) : 5ms