IAL - IJCV 2020#


Information

Reference#

Contribution#

  • 각 pixel의 Label probability를 학습하기 위한 Unary segmentation network와 이를 refine하기 위한 pairwise affinity network로 구성된 architecture 제안

  • 정확한 annotation 없이 신뢰성 높은 pixel affinity를 학습하기 위한 mining confident regions 기법과, 제안한 framework과 equivalent한 energy function을 local min.에 수렴시키기 위해 iteratively하게 학습을 수행하는 방법을 제안.

  • PASCAL VOC 2021 및 COCO dataset에서 좋은 성능을 나타냄을 확인.

Proposed Method#

1. Architecture#

  • 각 pixel x의 label probability를 구하기 위한 Unary network F=f(x,Wf)과 pixel affinity를 학습하기 위한 pairwise network G=f(x,Wg),GRN×N 로 구성됨.

ial1

Fig. 97 Illustration of the proposed framework (source: arXiv:2002.08098)#

  • Unary network를 이용하여 추출한 probability map αtu을 confident region mining을 거친 후 pairwise network의 supervision으로 사용함.

  • Pairwise Network를 이용하여 구한 affinity transformation matrix G를 이용하여 coarse label probabilities map αtu를 refine 하여 αtp=Gtαtu를 구한 후 다음 step의 Unary network의 supervision으로 사용.

2. Formulation#

  • 각 영상을 un-directed weighted graph G=(V,E)로 표현함. → Vertex set V={v1,...,vN}에서 vertex vivj간의 edge는 weight wij를 갖는다 → 모든 weight는 adjacency matrix W=(wij)i,j=1,...,N로 표현 가능하다. → Degree matrix D는 degrees d1,...dN를 element로 갖는 diagonal matrix이다. → Degree는 di=j=1Nwij으로 표현된다.

  • Semantic segmentation을 위해 다음과 같은 energy loss function을 minimize 한다. (유사도가 높은 픽셀이 유사한 label을 같도록 학습함.)

    α=argmaxαJ(α,Wf,Wg)=argminααTLα

    여기서 α는 output label의 hidden state, L=DW는 Laplacian matrix이며 αTLα는 다음과 같이 나타낼 수 있다.

    αTLα=αT(DW)α=i=1Ndiαi2i,j=1Nαiαjwi,j=12(i=1Ndiαi22i,j=1Nαiαjwi,j+j=1Ndjαj2)=12i,j=1Nwi,j(αi,αj)2
  • 본 논문에서는 α를 추정하기 위해 similarity metric을 설계하고 최적화하는 방법을 사용하지 않고, EM formulation 기반으로하는 iterative learning method를 적용하여 probability map과 network를 refine하는 방법을 제안함.

  • G=ID+W=IL가 Pairwise network g와 pairwise/unary network의 output αpαu를 이용하여 학습가능한 Affinity transformation matrix를 나타낸다면, EM procedure는 다음과 같이 나타낼 수 있다.

    (1) Initialization:

    Class Activation Map에서 얻은 object seed Y0를 이용하여 초기 parameter {Wf,Wg}0과 unary response map α0u를 얻는다.

    (2) E-Step

    t iteration에서의 Jt loss를 최소화하여 unary probability를 refine 하고,

    Jαtu=Ltαtu=(1Gt)αtu

    t-step에서의 pairwise network의 output αtp를 refine 한다.

    αtp=αtuΔαtu

    unary probability map을 이용하여 pairwise network의 output을 refine한다.

    αtp=Gtαtu

    (3) M-Step

    Jt가 최소화 되도록 Network ft+1(x,Wf)gt+1(x,Wg)의 parameter WfWg를 학습한다. 이때 supervision은 αtp로부터 추출한다.

  • Energy function Jα와 network parameter에 모두 미분 가능하기 때문에 EM procedure가 local minimum에 항상 수렴하는 것을 보이는 것은 간단함.

    • For training pairwise network in the t+1 step, we consider the softmax cross-entropy loss function

      H(αt+1u)=αt+1ulogαt+1P

      여기서 log함수가 단조 증가 함수이고, pairwise network의 output이 αt+1p=Gt+1αt+1u이므로

      minH=minαt+1uαt+1P=minαt+1uGt+1αt+1u=minαt+1u(ILt+1)αt+1u

      to opt. αt+1Pis to min. the second term

    Lt+1=argmaxLt+1αt+1uLt+1αt+1u
    • αtp를 unary network와 αt+1u을 학습하기 위한 supervision으로 사용하는 과정은 M-step으로 나타낼 수 있음.

    • 하지만 pairwise network가 iteration을 반복하며 affinity를 학습하는 과정중에 정확한 supervision이 제공되지 않기 때문에 항상 수렴한고 말할 수 없음.

    • 본 논문에서는 이런 문제를 해결하기 위해 mining된 confidence region Yt+1 적용함. 이를 이용하면 energy function을 낮출 수 있을 것으로 예상함.

    Yt+1Lt+1αt+1uαt+1uLt+1αt+1u

2. Training#

(1) Unary network

  • AffinityNet과 유사한 형태로 구성. DeepLab 구조에 object seed로 CAM을 사용함.

  • CAM으로부터 얻은 pseudo label을 이용하여 fully-supervised method와 같은 방법으로 softmax loss를 이용하여 학습함.

  • Unary network를 이용하여 추출한 probability map αtu을 confident region mining을 거친 후 pairwise network의 supervision으로 사용함.

(2) Pairwise network

  • Spatial Propagation Network(SPN) 구조 적용하여 affinity transformation matrix G를 학습

  • 정확한 label supervision이 주어지지 않는 상황이기 때문에 segmentation 결과가 정확하지 않아 학습이 잘 안될 수 있음

  • 이 문제를 해결하기 위해 segmentation 결과로부터 confident region을 mining한 후 이를 이용하여 학습하는 과정을 거침. pairwise affinity network를 학습하기 위해 softmax loss를 적용함.

    Lα=Ytlogαtp

    여기서 Yt는 mining된 confidnet regions임.

  • 잘 학습된 affinity matrix는 같은 object 내의 pixel들 처럼 같은 label을 가지는 영역에서는 smooth한 결과를 가지고, 명확한 경계를 가져야 함. 정확한 affinity matrix를 학습하기 위해, superpixel을 이용한 region smoothness loss를 제안함.

    Ls=||GGs||22

    여기서 G는 affinity matrix를, Gs는 각 super-pixel region을 나타냄.

  • G를 이용하여 coarse label probabilities map αtu를 refine 하여 αtp=Gtαtu를 구한 후 다음 step의 Unary network의 supervision으로 사용.

(3) Mining Confident Region

ial2

Fig. 98 Illustration of mining confident regions (source: arXiv:2002.08098)#

  • 정확한 label annotation없이 신뢰할 수 있는 affinity matrix를 추출하기 위해 Confidence region을 mining함.

    (1) image에서 분할한 각 super-pixel region S={Si,j}로 분할함.

    (2) 어떤 super-pixel의 80% 이상이 unary network의 output에서 class c에 matching 된다면 이 superpixel을 class c의 sample로 사용함 D={S,L}i,j

    (3) 각 class의 sample을 region classification network fcm를 이용하여 confidence score를 구함.

    (4) segment label과 다른 classification 결과가 나오는 영역을 제거함.

  • region classification network fcm는 mask pooling scheme을 포함하는 fast R-CNN구조를 적용하며, unary network의 label 정보를 supervision하는 cross-entropy loss을 이용하여 학습함.

    Lm=i,j,cLi,j(c)logfcm(Si,j|θm)

    여기서 Li,j는 one-hot vector로 class c 에 해당하는 element만 1의 값을 가짐.

Experimental Result#

1. Performance Evaluation#

ial3.png ial4.png ial5.png ial6.png ial7.png