'Computer Vision' 카테고리의 글 목록

오늘 리뷰할 논문은 InternImage 입니다. InternImage는 Deformable Convolution을 ViT와 같은 구조에 적용시켜 성능을 향상시킨 논문으로 최근 Classification, Object Detection, Segmentation 등 여러 CV 분야에서 SOTA의 성능을 보이는 모델입니다. https://arxiv.org/pdf/2211.05778.pdf 최근 ViT는 큰 파라미터를 기반으로 한 모델로 CNN보다 뛰어난 성능을 보여줬습니다. 그러나 저자는 이것이 CNN의 한계가 아닌 아키텍쳐의 설계 및 대규모 데이터셋과 파라미터의 차이일 뿐이라고 주장합니다. CNN이 ViT를 따라잡기 위해서는 다음 두가지에 대한 해결책이 필요합니다. ViT의 Multi-head Self-A..

오늘 리뷰할 논문의 제목은 Deformable Convolutional Networks 입니다. ICCV 2017에서 제안된 논문이며, Convolution filter의 고정된 field를 offset이라는 개념을 통해 유기적으로 변화할 수 있도록 하였습니다. https://arxiv.org/pdf/1703.06211.pdf 기존의 CNN은 몇가지 한계가 있었습니다. 가장 큰 이유는 CNN이 본질적으로 기하학적인 구조(크기, 모양 등)가 고정되어있다는 것입니다. 이 때문에 일반화가 잘 되지 않고 복잡한 Translation에 대한 성능이 낮았습니다. 저자는 보통 우리가 시각적으로 볼 때 객체의 크기나 위치 등이 고정되어 있지 않기 때문에 CNN의 수용필드가 변화하는 것이 더 좋은 성능을 낼수 있다고 생..

티스토리툴바