[논문 리뷰] InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
·
Computer Vision
오늘 리뷰할 논문은 InternImage 입니다. InternImage는 Deformable Convolution을 ViT와 같은 구조에 적용시켜 성능을 향상시킨 논문으로 최근 Classification, Object Detection, Segmentation 등 여러 CV 분야에서 SOTA의 성능을 보이는 모델입니다. https://arxiv.org/pdf/2211.05778.pdf 최근 ViT는 큰 파라미터를 기반으로 한 모델로 CNN보다 뛰어난 성능을 보여줬습니다. 그러나 저자는 이것이 CNN의 한계가 아닌 아키텍쳐의 설계 및 대규모 데이터셋과 파라미터의 차이일 뿐이라고 주장합니다. CNN이 ViT를 따라잡기 위해서는 다음 두가지에 대한 해결책이 필요합니다. ViT의 Multi-head Self-A..