Separable Self-attention for Mobile VisionTransformers#

Introduction#

MobileViT는 CNN과 ViT의 장점을 가지는 light-weight network이다. 본 논문에서는 linear complexity를 가지는 separable self-attention을 소개한다.

separaple self-attention은 위와 같이 quadratic MHA를 두 개의 linear computation으로 대체하면서 global information을 encoding 한다.

Separable self-attention#

  • \(c_s\): context score

  • \(c_v\): context vector

  • \(x_K\): dxd 차원의 weight를 가지는 key를 사용하여 linearly projection

contextual information을 가지는 \(c_v\)\(ReLU(xW_v)\)와 element-wise multiplication을 하고 \(W_O\) weight를 가지는 linear layer를 통과한다.

[iPhone12에서의 측정 결과]


Author by 김주영
Edit by 김주영