StyO

StyO#

현재 다양한 분야에서 이미지에 특정 스타일을 입히고자하는 연구들이 활발히 진행중이다.
이전까지의 연구들은 대부분 각각의 source 이미지, target 이미지 한장씩을 사용해 GAN based model을 활용하려는 식이 주를 이루었다.
단 이러한 방식에는 한계가 있는데,
1. Real Face를 학습한 pre-trained GAN 모델의 의존도가 너무 커서 Style을 입히기 힘들다.
2. latent space안에서 Content 정보와 Style 정보가 Entangle 되어있다.
StyO는?
- GAN 대신 Data의 Distribution을 더 잘 포용하는 Latent Diffusion Model을 Base모델로 채용한다.
- 총 2 Stage로 구성되는데
  1. Identifier Disentanglement Learner(IDL)
    - 이미지의 content 정보와 Style 정보를 분리
  2. Fine-grained Content Controller(FCC)
    - IDL로부터 분리된 Content와 Style을 원하는대로 재조합
- 추가로 src 이미지의 detail한 정보(head-pose, hair color 등)를 유지하기위해 Generate 과정에서 src 이미지의 attention map을 재사용하는 trick을 제안했다.
이러한 StyO는 GAN based 모델에 비해 더 좋은 퀄리티의 이미지를 생성해내고, one-shot face stylization 분야에서 SOTA를 기록했다.

image 간의 style transfer를 위해 identifier disentaglement learner과 fine-grained content controller를 제안한다.

IDL

image의 content 정보와 style 정보를 분리하는 방향으로 학습이 진행
src 이미지는 "a drawing with $S_{src}$ not $S_{tgt}$ style of $C_{src}$ not $C_{tgt}$ portrait" prompt로 학습 (tgt 이미지는 반대)

⇒ 이미지 간의 Style 정보와 Content 정보가 Disentangle 되고, $S_{s r c}$ 안에 이미지 A의 Style 정보가, $C_{t g t}$ 안에 src 이미지의 content 정보가 embedding 되도록 학습

이 때 $S_{s r c}$ , $C_{s r c}$ 에 target 이미지의 conext 정보를 배제함과 동시에 $S_{t g t}$ , $C_{t g t}$ 에 포함하기위해 앞에 negator(=부정의 의미를 가진 단어)를 사용
- e.g. not, without, except …
src, tgt 이미지에 추가로 auxiliary 이미지 셋을 구성해 “a drawing with $S_{src}$ not $S_{tgt}$ style of portrait” prompt로 학습
- $X_{a u x}$ : FFHQ dataset에서 임의로 200장의 데이터를 sampling
효과
1. auxiliary 이미지를 학습함으로써 key prompt간 disentanglement를 향상
2. auxiliary 이미지에는 없는 src 이미지만의 정보를 $C_{s r c}$ 에 주입
3. src 이미지의 style과 tgt 이미지의 style을 구별하는데 도움을 줌
Full Loss

Fig. 204 Equation 1#
이러한 IDL의 학습만으로 src 이미지와 tgt 이미지의 style transfer가 가능하다.
- “a drawing with $S_{tgt}$ not $S_{src}$ style of $C_{src}$ not $C_{tgt}$ portrait”
  
  Fig. 205 Figure 2#
하지만 위 이미지처럼 src 이미지의 content 정보(head-pose, facial feature)를 잃어버리는 경향이 있다.
이러한 문제점을 개선하기위해 FCC를 추가로 도입하였다.

FCC

IDL로 분리된 content 정보와 style 정보를 원하는 방식으로 조합(Recombination)할 때 A의 Content 정보를 유지하도록 하는 Trick

Cross Attention Control
- LDM은 기본적으로 Text 정보를 생성 이미지에 주입하기위해 cross attention mechanism을 사용
  - $A t t n (z, r) = M (z, r) V$ , z : image latent, r : text embedding
- 이 때 “prompt-to-promt” paper에서 attention map M의 값이 생성 이미지의 Layout에 강한 영향을 미친다는 점을 확인
- 따라서 src 이미지의 attention mask를 generate 과정에 주입합으로써 content 정보를 좀 더 잘 유지하도록 유도
- 단, attention map의 모든 값을 replace하지않고, content에 관한 Index만 선택적으로 replace
  - content index : ‘ $C_{s r c}$ , not, $C_{t g t}$ , portrait`
    
    Fig. 206 Equation 3#
Augmented Text Prompt
- training time에서 key prompt를 n번 사용함으로서 생성되는 이미지에 context 정보를 강하게 주입
  - src 이미지는 “a drawing with ($S_{src}$ not $S_{tgt}$) * $n_{s}$ style of ($C_{src}$ not $C_{tgt}$) * $n_{c}$ portrait” (tgt 이미지는 반대)
- 실험상 hyperparameter $n_{s}$ 와 $n_{c}$ 는 3 이하의 값을 추천

Implementation Details

Comparison with SOTA methods

StyO가 src 이미지의 face identity와 local detail 모두 잘 유지함과 동시에, style 정보를 자연스럽게 입힌 결과물을 생성해낸다.
User Study도 다른 모델들에 비해 좋은 결과를 보였다.

Fig. 208 Table 1#

Ablation Study

Effect of Contrastive Disentangled Prompt Template
- negative prompt 없이 positive prompt만 넣고 학습할경우 학습 이미지의 overfitting이 심하고, style과 content 정보의 분리에 어려움을 보인다.
  
  Fig. 209 Figure 4#
- 또, source 이미지의 local detail을 유지하기위해 auxiliary set의 trick도 적용하는것이 Best Quality의 결과물을 생성해냈다.
Effect of Fine-grained Content Controller
- FCC 없이 Inference할 경우 generated 이미지의 높은 diversity를 보이지만, FCC를 포함할 경우 src 이미지의 fidelity가 높아져 좀더 significant한 이미지가 생성되는것을 보여주었다.
  
  Fig. 210 Figure 5#
Hyper-parameters in Augmented Text Prompt
- $n_{s}$ 값이 커질수록 이미지가 photorealistic에서 artistic하게 바뀌고, $n_{c}$ 도 마찬가지로 값이 커질수록 src 이미지에 overfitting된 이미지가 나오는 경향을 보여주었다.

StyO는 IDL과 FCC를 사용해 기존 GAN을 이용한 SOTA 모델들보다 더 자연스럽고 Quality 좋은 style transfered 이미지를 생성해낼 수 있었다.
단, style 하나의 transfer를 위해 single GPU로 10분이 걸리므로 time-efficiency가 좋지 못하다는 단점이 있다.