Q&A#

spatial reduction으로 인한 spatial 정보 손실#

PVT의 spatial reduction(SR) 계산하는 부분에서 HW를 reduction ratio로 나누고 채널에 reduction ratio을 곱해서 reshape을 함으로써 feature 크기를 줄여가는데 이 과정에서 spatial 정보 손실이 일어나지 않을까요??

reduction을 위해서 정보 손실은 어느정도 감안해야하지만 SR 연산 자체가 key와 value에 대해서만 이루어진다는 점과 position embedding 값이 elementwise하게 들어간다는 점에서 완전한 정보 손실은 이루어지지 않는다고 생각합니다.

Transformer에서 spatial reduction을 통한 width 조절#

위의 지승환님이 말씀하신 것처럼 SR연산이 정보 손실에 큰 영향을 주지 않는다면 inceptionnet에서 width를 키우기 위해 1x1 conv를 사용하여 연산량을 줄인 것처럼 transformer에서도 SR연산을 통해서 연산량을 줄이고 WIDTH를 넓힐 수 있을까요? 그리고 transformer에서 Width를 넓힌다고 효과가 있을까요?

사이즈를 줄이고 늘리는 부분은 마치 U-Net이 생각나게하는 부분이네요. U-Net같은 경우 앞단의 레이어(downsampling)에선 위치 정보를 얻고 뒷단 레이어(upsampling)에선 feature의 학습 성숙도?를 얻음으로써 성능을 얻었지만 transformer의 경우 승환님이 말씀하신 것처럼 pe가 추가되어 학습되는 부분이 있어서 불필요한 과정이라고 생각합니다. 추가해도 상당히 cost가 높아질 것 같습니다…

PVT multi-scale feature 추출의 장점, CNN의 장점과 유사한지#

PVT가 multi scale을 뽑음으로써 얻어지는 장점이 어떤 것이 있을까요? CNN처럼 초기 레이어는 receptive field가 좁은 영역만 보며 coarse한 특징을 뽑고 점차 레이어가 깊어질수록 receptive field가 커져 넓은 영역을 보게되어 fine한 특징을 뽑는 이런 장점을 그대로 유지한다고 볼 수 있을까요?

PVT는 이미지 전체 픽셀에 대한 예측을 하는 dense prediction task에 적합하지 않은 ViT의 단점을 보완합니다. 여기서 필요한게 multi-scale feature map인 것 같네요.
그리고 PVT는 CNN의 coarse한 특징부터 fine한 특징을 뽑아내는 장점을 유지한다기 보다는, 넓은 receptive field를 뽑아내기 위해 레이어를 쌓는 작업을 해주는 것 대신, transformer 구조를 통해 레이어마다 global한 receptive field를 뽑아낸다는 장점이 있다 라고 하는 것이 맞지 않을까 싶습니다.
근데 다르게 생각해보면 ViT의 단점이 16*16 patch size로 인해 coarse한 결과만 얻을 수 있다는 것에 비해, PVT는 coarse한 결과에 fine한 결과까지 얻을 수 있다는 장점이 있으니 그런 의미에선 맞다고 할 수도 있겠네요.

PVT patch size 조절과 CNN의 커널 사이즈 조절#

기존 CNN은 receptive field를 확장하기 위해서 커널 크기를 변경하거나 레이어를 많이 쌓거나 다른 종류의 convolution을 사용하는 방식을 사용하는데, PVT에서는 spatial reduction을 통해 patch size를 줄여 계산량을 줄이고 pyramid 구조로 만들었습니다. 이렇게 patch size를 조절하는 행위를 커널을 조절하는 행위와 레이어 수를 늘리는 것에 빗대어 설명할 수 있을까요?

cnn에서 위에서 설명주신 receptive field 확장을 위한 작업은 featuremap을 통한 연산이 global하지 않기때문에 이루어진다고 생각합니다. 그에반해 transformer는 global attention은 이루어지지만 단점으로 항상 같은 resolution의 patch들에 대한 연산만 가능하다는 점이 있고, 이를 보완하기위해 서로 다른 size의 patchsize를 만들고 이를 pyramid 구조로 쌓았다고 생각합니다. 원인과 해결방안이 반대된다고 이해하면 어떨까 생각합니다.


Edit by 김주영