Information
Title: Consistency Models (ICML 2023)
Reference
Author: Sangwoo Jo
Last updated on Apr. 26, 2024
Consistency Models#
1. Introduction#
Diffusion Models 은 image generation, audio synthesis, video generation 등의 다양한 분야에 연구가 진행되어 왔습니다. 하지만 single-step generative model 인 VAE, GAN, 그리고 normalizing flows 에 비해 추론 속도가 10-2000배 더 많은 연산작업을 요하는 치명적인 단점이 존재합니다.
이러한 문제를 해결하기 위해 논문에서 Consistency Model 을 소개합니다.

Fig. 480 Overview of Consistency Models#
위의 사진처럼 주어진 PF ODE (Probability Flow Ordinary Differential Equation) 에 대해서 동일한 trajectory 에 있는 point 들이 동일한 시작점으로 매핑되도록 모델을 학습하는 방식을 제안하고, 이러한 self-consistency 특성을 만족시킬 수 있도록 2가지 학습 방식을 소개합니다.
첫번째 방식으로는 우선적으로 numerical ODE solver 와 사전 학습된 diffusion model을 사용하여 PF ODE trajectory 에서 인접한 point 쌍을 생성합니다. 그리고 이러한 쌍에 대한 모델 출력 간의 차이를 최소화하도록 모델을 학습함으로써 diffusion model 을 consistency model 로 효과적으로 knowledge distillation 을 적용할 수 있고, 단 한번의 step 만으로도 high quality sample 을 생성할 수 있게 됩니다.
두번째 방식으로는 사전학습된 diffusion model 에 의존하지 않고 독립적으로 consistency model 을 학습하는 방식입니다.
CIFAR-10, ImageNet 64x64, LSUN 256x256 데이터셋에 실험한 결과, 기존 distillation 기법을 적용한 모델 (i.e., progressive distillation) 보다 성능이 개선되고, 독립적인 모델로서도 사전학습된 diffusion model 없이 GAN 을 제외한 single-step generative model 보다 성능이 좋다고 합니다. 마지막으로 다양한 zero-shot data editing (image denoising, interpolation, inpainting, colorization, super-resolution, stroke-guided image editing) task 에도 consistency model 이 좋은 성능을 보여준다는 것을 확인하였습니다.
2. Diffusion Models#
Diffusion Models in Continuous Time
Continuous time 에서의 diffusion model 을 다음과 같이 SDE 수식으로 표현할 수 있습니다. (Song et al., 2021)

Fig. 481 Diffusion Models in Continuous Time#
:= drift, diffusion coefficients := standard Brownian motion
그리고 해당 SDE 는 아래 식과 같은 PF ODE 로 표현할 수 있다는 성질을 가지고 있습니다. 이때

Fig. 482 Probability Flow (PF) ODE#
일반적으로 위의 SDE 수식에서

Fig. 483 Empirical PF ODE#
다음 과정으로는 initial condition
추가적으로 논문에서 numerical instability 를 방지하기 위해 고정된 작은 양수
앞서 소개드린 방식으로 diffusion model 을 통한 sampling 시, ode solver 를 사용하는데 score model
3. Consistency Models#
논문에서 single-step generation 이 가능한 consistency model 을 제안하고, 학습하는 방식으로 1) 사전학습된 diffusion model 로부터 knowledge distillation 진행하는 방식과 2) 독립적으로 학습하는 방식 을 소개합니다.
Definition
주어진 PF ODE 에 대한 trajectory

Fig. 484 Self-Consistency#
Parameterization
앞서 정의한 부분에 의해, 모든 consistency function

Fig. 485 Parameterization Method 1#
여기서

Fig. 486 Parameterization Method 2#
이때,

Fig. 487 Parameterization Method 2 -
두번째 parameterization 기법이 diffusion model 형식과 매우 유사하여 이러한 diffusion model 아키텍쳐를 leverage 하기 위해 논문에서 두번째 방식으로 parameterization 을 하는 방식을 택합니다.
Sampling
학습된 consistency model

Fig. 488 Multistep Consistency Sampling#
Zero-Shot Data Editing
Diffusion model 과 유사하게 추가적인 학습 없이 zero-shot 형태로 image editing 그리고 manipulation task 이 가능합니다. 예를 들어, consistency model 은 Gaussian noise 로부터 one-to-one mapping 을 통해
4. Training Consistency Models via Distillation#
앞서 소개한 두 가지 학습 방식 중, 첫번째로 사전학습된 score model
논문에서 특히 continuous time interval
이때,

Fig. 492 One Discretization Step of a Numerical ODE Solver#
이때,

Fig. 493 One Discretization Step of a Euler ODE Solver#
위 수식을 활용하여 주어진

Fig. 494 Consistency Distillation Loss#
여기서 metric function

Fig. 495 Exponential Moving Average (EMA)#
이처럼 EMA update 와 stopgrad operator 로 학습할 시,

Fig. 496 Overview of Consistency Distillation (CD)#
5. Training Consistency Models in Isolation#
Consistency Distillation 방식에서는 ground truth score function

Fig. 497 Unbiased Estimator of Score Function#
Consistency Training (CT) Loss 는 다음과 같이 정의하고, 이는 사전학습된 diffusion model 파라미터
Consistency Training Loss 를 위와 같이 정의하게 된 배경은 다음과 같습니다.
Fig. 498 Consistency Training Loss#

Fig. 499 Schedule Functions for Consistency Training#
논문에서 추가적인 성능 개선을 위해

Fig. 500 Overview of Consistency Training (CT)#
6. Experiments#
논문에서 CIFAR-10, ImageNet 64x64, LSUN Bedroom 256x256, 그리고 LSUN Cat 256x256 데이터셋에 consistency distillation, consistency training 두 학습 방식을 모두 실험하였고, 모델 성능 지표는 FID, IS, Precision, 그리고 Recall 을 사용하였습니다. 모델 architecture 는 CIFAR-10 데이터셋에는 NCSN++, 그리고 그 외 데이터셋에는 ADM 모델을 사용하였습니다.
6.1. Training Consistency Models#
CIFAR-10 데이터셋에 다음과 같은 hyperparameter tuning 작업을 진행하였습니다. (metric function
Parameter Initialization
모델 초기 파라미터 값은 다음과 같이 설정하였습니다.
Consistency Distillation - 사전학습된 diffusion model 파라미터 값
Consistency Training - Random Initialization
Results
모델 실험 결과를 다음과 같이 정리할 수 있습니다.

Fig. 501 Experimental Results - Hyperparameters#
Consistency Distillation (CD)
LPIPS 를 metric function 으로 사용했을때 모델 성능이 가장 좋았고, 이는 LPIPS metric 이 CIFAR-10 와 같은 natural image 들 간의 유사도를 측정하는데 특화되어 있기 때문이라고 합니다.
Euler ODE solver 보다 Heun ODE solver 를 사용했을 때, 그리고
로 설정했을때 모델 성능이 가장 좋았습니다. 또한, 동일한 에 대해서 Heun’s second ode solver 를 사용했을때 Euler’s first ode solver 를 사용했을 때보다 모델 성능이 우월한 부분을 확인할 수 있었다고 합니다.
이외에도 다른 데이터셋에 hyperparameter tuning 작업을 별도로 진행하였습니다.
Consistency Training (CT)
CD 와 동일하게 LPIPS metric function 사용하였고, ODE solver 는 사용하지 않았습니다.
이 작을수록, 모델이 더 빨리 수렴하지만 생성된 이미지 퀄리티는 좋지 않은 부분을 재차 확인할 수 있습니다. (and vice versa) 을 점차적으로 증가시키면서 도 변화시켰을때 성능이 가장 좋았습니다.
6.2. Few-Step Image Generation#
Distillation
논문에서는 Consistency Distillation 모델의 성능을 synthetic data generation 을 필요하지 않는 knowledge distillation 기법 (PD, Salimans & Ho (2022)) 과 다음과 같이 비교합니다.

Fig. 502 Experimental Results - Distillation#
Direct Generation
CIFAR-10 데이터셋 기준으로 VAE, normalizing flow 를 비롯한 타 single-step generative model 보다 CT 가 성능이 가장 좋았습니다. 또한, distillation 기법 없이도 Progressive Distillation (PD, Salimans & Ho (2022)) 와 견줄만한 성능을 가진 부분을 확인할 수 있습니다. 마지막으로 동일한 noise 로부터 높은 structural similarity 를 가진 이미지들을 생성함으로써 self-consistency 성질도 확인할 수 있었다고 합니다.

Fig. 503 Experimental Results - Direct Generation#
6.3. Zero-Shot Image Editing#
Diffusion model 과 유사하게 consistency model 도 multistep sampling 알고리즘을 수정함으로써 zero shot image editing 이 가능합니다. 해당 사진은 LSUN Bedroom 데이터셋에 colorization, super-resolution, stroke-guided image editing task 를 적용한 결과입니다.

Fig. 504 Pseudocode for Zero-Shot Image Editing#

Fig. 505 Zero-Shot Image Editing Results#