Information
Title: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (ICLR 2024)
Reference
Code: guoyww/AnimateDiff
Project Page : https://animatediff.github.io
Author: Kyeongmin Yu
Last updated on June. 11, 2024
AnimateDiff#
๐ ๋ ผ๋ฌธ์ ์์
In this paper, we present AnimateDiff, a practical framework for animating personalized T2I models without requiring model-specific tuning.
AnimateDiff = public personalized T2I models + domain adapter & plug-and-play Motion Module + MotionLoRA
0. Abstract#
T2I diffusion model๊ณผ DreamBooth๋ LoRA์ ๊ฐ์ ๊ฐ์ธํ ๊ธฐ์ ์ด ๋ฐ์ ํจ์ ๋ฐ๋ผ ์ฌ๋๋ค์ ์ ์ ํ ๋น์ฉ์ ์ง๋ถํ์ฌ ๊ณ ํ์ง์ ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์๊ฒ ๋์๋ค. ํ์ง๋ง, ๊ธฐ์กด ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ(personalized T2I)์ ์์ง์์ ์ถ๊ฐํ๊ฑฐ๋ ์ ๋๋ฉ์ด์ ์ ์์ฑํ๋๋ก ํ๋ ๊ฒ์ ์ฌ์ ํ ์ด๋ ต๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ถ๊ฐ์ ์ธ ํ๋ จ(model-specific tuning)์์ด ๊ธฐ์กด ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ๋ชจ๋ธ์ ์์ง์์ ์ถ๊ฐํ๋ ์ค์ฉ์ ์ธ ํ๋ ์ ์ํฌ๋ฅผ ์ ์ํ๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ํ๋ ์ ์ํฌ์ ํต์ฌ์ plug-and-play motion module์ ํ์ฉํ๋ ๊ฒ์ผ๋ก ์ด motion module์ ํ๋ฒ ํ์ตํ๋ฉด, ์ด๋ค ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๊ณผ๋ ์ตํฉํ ์ ์๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ํ์ต ๋ฐฉ๋ฒ์ ์ด์ฉํ๋ฉด motion module์ real-world ๋น๋์ค๋ก ๋ถํฐ ํจ๊ณผ์ ์ผ๋ก motion prior๋ฅผ ํ์ตํ ์ ์๋ค. ํ๋ฒ ํ์ต๋ motion module์ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ๋ง๋ถ์ฌ ์ ๋๋ฉ์ด์ ์์ฑ ๋ชจ๋ธ๋ก ์ฌ์ฉํ ์ ์๋ค. ๋ํ AnimateDiff๋ฅผ ์ํ ๊ฐ๋จํ ํ์ธํ๋ ๋ฐฉ์์ธ MotionLoRA๋ฅผ ์ ์ํ๋ค. ์ด๋ ์ฌ์ ํ์ต๋ motion module์ด ์ ๋น์ฉ์ผ๋ก ์๋ก์ด ์์ง์ ํจํด์ ํ์ตํ ์ ์๊ฒ ํด์ค๋ค. (ex. ์ดฌ์ ๊ธฐ๋ฒ) AnimateDiff์ MotionLoRA๋ฅผ ๊ณต๊ฐ๋ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ๋ถ์ฐฉํ์ฌ ์คํํ์ผ๋ฉฐ ์ด๋ฅผ ํตํด ๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ์์ด ์ด๋ฏธ์ง ํ๋ฆฌํฐ์ ๋ค์ํ ์์ง์์ ๋ณด์ ํ๋ฉด์๋ ์์ฐ์ค๋ฌ์ด ์ ๋๋ฉ์ด์ ํด๋ฆฝ์ ์์ฑํ ์ ์์์ ๋ณด์๋ค.
Core Framework
public T2I models
personalized T2Is from the same base T2I (SD1.5)
can download finetuned T2I from civitai or hugging face
domain adapter
LoRA๊ธฐ๋ฐ domain adapter๋ฅผ base T2I ๋ชจ๋ธ์ ๋ํด video dataset์ ํ์ตํ ๋ ๋ฐ์ํ ์ ์๋ domain gap์ ์ค์๋ค.
์ฌ๊ธฐ์ ๋งํ๋ domain gap์ด๋ video์ ๊ฐ ํ๋ ์์ ๋๋์ด ์ด๋ฏธ์ง๋ก ๋ดค์๋ ๋ฐ์ํ ์ ์๋ motion blur, compression artifacts, watermarks๋ฑ์ ๋งํ๋ค.
training strategy of a plug-and-play motion module
learns transferable motion priors from real-world videothrough proposed training strategy
ํ๋ฒ ํ์ตํ๊ณ ๋๋ฉด ๋ค๋ฅธ T2I๋ชจ๋ธ๊ณผ ๊ฒฐํฉํด animation generator๋ก ์ฌ์ฉํ ์ ์๋ค.
MotionLoRA
adapt the pre-trained motion module to specific motion patterns
1. Introduction#
ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ ๋ ฅํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ํจ์ ๋ชจ๋ธ(T2I diffusion models)์ ๋ฐ์ ์ผ๋ก ๋ง์ ์์ ๊ฐ์ ์๋ง์ถ์ด๋ค์ด ์๊ฐ ์ปจํ ์ธ ๋ฅผ ๋ณด๋ค ์ฝ๊ฒ ์์ฑํ ์ ์๊ฒ ๋์๋ค. ๊ธฐ์กด T2I ๋ชจ๋ธ์ ์์ฑ๋ฅ๋ ฅ(creativity)๋ฅผ ์๊ทนํ๊ธฐ ์ํด DreamBooth์ LoRA์ ๊ฐ์ ๊ฐ๋ฒผ์ด ๊ฐ์ธํ ๋ฐฉ์๋ค์ด ์ ์๋์๋ค. ์ด๋ฌํ ๋ฐฉ์๋ค์ ์์ ๋ฐ์ดํฐ์ ๊ณผ ์ ๋นํ ํ๋์จ์ด์์๋ customized finetuning์ ํ ์ ์๊ฒ ํด์ค๋ค. ๊ทธ๋ก์ธํด ์ฌ์ฉ์๋ค์ด ์ ์ ๋น์ฉ์ผ๋ก๋ base T2I model์ ์๋ก์ด domain์ ์ ์ฉํ๊ฑฐ๋ ์๊ฐ์ ํ๋ฆฌํฐ๋ฅผ ๋์ผ ์ ์๊ฒ ๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ AI ์ํฐ์คํธ์ ์๋ง์ถ์ด ์ปค๋ฎค๋ํฐ ์์ ์๋น๋์ personalized models์ Civitai๋ Hugging Face์ ๊ฐ์ ํ๋ซํผ์ ๊ฐ์ํ๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ด ์๋นํ ์ข์ ์์ค์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์ง๋ง, ์ ์ ์ธ ์ด๋ฏธ์ง๋ง ์์ฑํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์๋ค. ๋ฐ๋ฉด, ์ ๋๋ฉ์ด์ ์ ์์ฑํ๋ ๊ธฐ์ ์ด ์ํ๋ ์นดํฐ๊ณผ ๊ฐ์ ์ค์ฐ์ ์์ ๋ ์๊ตฌ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๊ณ ํ์ง T2I ๋ชจ๋ธ์ ํ์ธํ๋ ์์ด ๊ณง๋ฐ๋ก ์ ๋๋ฉ์ด์ ์์ฑ ๋ชจ๋ธ๋ก ๋ณํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ํ์ธ ํ๋์ ์ํ ๋ฐ์ดํฐ ์์ง๊ณผ ์ปดํจํ ์์์ ํ์๋ ์๋ง์ถ์ด ์ฌ์ฉ์์๊ฒ ๊ฑธ๋ฆผ๋์ด ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ AnimateDiff๋ฅผ ์ ์ํ๋๋ฐ ์ด๋ personalized T2I model์ ๋ฅ๋ ฅ์ ๋ณด์ ํ๋ฉด์ ์ ๋๋ฉ์ด์ ์ ์์ฑํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ํจ๊ณผ์ ์ธ ํ์ดํ๋ผ์ธ์ด๋ค. AnimateDiff์ ํต์ฌ์ ๋น๋์ค ๋ฐ์ดํฐ์ (WebVid-10M)์ผ๋ก๋ถํฐ ํ๋นํ motion ์ ๋ณด๋ฅผ plug-and-play motion module์ด ํ์ตํ๋ ๊ฒ์ด๋ค. motion module์ ํ์ต์ ์ธ๊ฐ์ง ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค.
domain adapter ํ์ธํ๋
visual distribution of the target video dataset(์ด๋ฏธ์ง ํ์ง์ฐจ์ด, ๋์์ ์ํฐ๋งํฌ, ์์ถ์ผ๋ก ์ธํ artifacts)์ ๋ํ ๋ถ๋ถ์ ์ด ๋ชจ๋์ด ํ์ตํจ์ผ๋ก์จ ์ดํ motion๊ด๋ จ ๋ชจ๋๋ค์ด motion์๋ง ์ง์คํ ์ ์๋๋ก ํ๋ค.
์๋ก์ด motion module
๋น๋์ค๋ฅผ ์ ๋ ฅ๋ฐ์์ ์๊ฒ inflate์ํจ base T2I ๋ชจ๋ธ์ domain adapter๋ฅผ ๋ํ ๋ชจ๋ธ์ ๋ชจ์ ๋ชจ๋ธ๋ง์ ์ํ ๋ชจ์ ๋ชจ๋์ ์ถ๊ฐํ๋ค. ์ด ๋ชจ๋์ ํ์ตํ ๋๋ domain adapter์ base model์ freezeํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด motion module์ด ์์ง์์ ๋ํ ๋ถ๋ถ์ ์ ๋ฐ์ ์ผ๋ก ํ์ตํ์ฌ ๋ชจ๋๋ณ ํ์ต์ด ๊ฐ๋ฅํด์ง๋ค. (๋ค๋ฅธ ๊ทธ๋ฆผ์ฒด๋ฅผ ์ํ ๊ฒฝ์ฐ base T2I+domain adapter๋ฅผ ๋ฐ๊พธ๋ฉด ๋จ)
(optional) MotionLoRA ํ์ต
MotionLoRA์ ๊ฒฝ์ฐ ํน์ motion์ ์ ์ ์์ reference videos์ ํ์ตํ์๋ก ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋กํ๋ ๋ชจ๋์ด๋ค. ์ด๋ฆ๊ณผ ๊ฐ์ด Low-Rank Adaptation (LoRA) (Hu et al., 2021)๋ฅผ ์ด์ฉํ๋๋ฐ ์๋ก์ด motion pattern์ ์ ์์(50๊ฐ)์ reference video๋ง์ผ๋ก ํ์ต์ํฌ์ ์๋ค. ๋ํ ์ฐจ์งํ๋ ๋ฉ๋ชจ๋ฆฌ๋ ์ ์ด ์ถ๊ฐํ์ต์ด๋ ๋ชจ๋ธ์ ๊ณต์ ,๋ฐฐํฌํ๋๋ฐ์๋ ์ ๋ฆฌํ๋ค.
3. Preliminary#
3.1 Stable Diffusion#
Stable Diffusion (Rombach et al., 2022), the base T2I model used in our work
open-sourced, well-developed community, many high-quality personalized T2I models for eval
์ฌ์ ํ์ต๋ encoder(\(\mathcal E\))์ decoder(\(\mathcal D\))๋ฅผ ์ด์ฉํ์ฌ latent space์์์ diffusion process๋ฅผ ์ํ
์ธ์ฝ๋ฉ๋ ์ด๋ฏธ์ง \(z_0=\mathcal E(x_0)\) ์ ๊ฒฝ์ฐ ์๋์ forward diffusion ๊ณผ์ ์ ํตํด \(z_t\) ๋ณํ๋จ
Forward diffusion for \(t=1,2,โฆ,T\)
\[ z_t=\sqrt{\bar \alpha_t}z_0+\sqrt{1-\bar\alpha}\epsilon,\space \epsilon \sim \mathcal N(0,I) \tag{1} \]pre-defined \(\barฮฑ_t\) determines the noise strength at step \(t\)
The denoising network \(ฯต_ฮธ(ยท)\) learns to reverse this process by predicting the added noise, encouraged by an MSE loss
MSE loss
\[ \mathcal L=\Bbb E_{\mathcal E(x_0),y,\epsilon \sim \mathcal N(0,I),t}\big [\| \epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\|_2^2\big] \tag{2} \]\(y\) is the text prompt corresponding to \(x_0\)
\(ฯ_ฮธ(ยท)\) is a text encoder mapping the prompt to a vector sequence.
In SD, \(ฯต_ฮธ(ยท)\) is implemented as a UNet (down4, middle, up4 blocks; ResNet, spatial self-attn, cross-attn)
3.2 Low-Rank Adaptation(LoRA)#
Low-Rank Adaptation(LoRA) (Hu et al., 2021), which helps understand the domain adapter (Sec. 4.1) and MotionLoRA (Sec. 4.3) in AnimateDiff
language model์์ ์ฒ์ ๋ฑ์ฅํ ๊ฐ๋ ์ผ๋ก ๊ฑฐ๋ ๋ชจ๋ธ์ fine-tuning์ ๋น ๋ฅด๊ฒ ์ํํ๊ธฐ ์ํด ์ ์๋ ๊ฐ๋ ์ด๋ค.
LoRA๋ ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ฅผ fine-tuningํ์ง ์๊ณ , rank-decomposition ํ๋ ฌ ์์ ์ถ๊ฐํ์ฌ ์๋กญ๊ฒ ์ถ๊ฐ๋ weight๋ง ์ต์ ํ ์ํค๋ ๊ฒ์ด๋ค.
๊ธฐ์กด ํ๋ผ๋ฏธํฐ๋ ๊ณ ์ ํจ์ผ๋ก์จ finetuning์ ๋ฐ์ํ ์ ์๋ catastrophic forgetting(Kirkpatrick et al., 2017)์ ์๋ฐฉํ ์ ์๋ค.
The new model weight with LoRA
\[ \mathcal W'=\mathcal W+\vartriangle\mathcal W=\mathcal W+AB^T \tag{3} \]\(A โ R ^{mรr}\) , \(B โ R ^{nรr}\) are a pair of rank-decomposition matrices, \(r\) is a hyper-parameter, which is referred to as the rank of LoRA layers
attention layer์์๋ง ์ฌ์ฉํ ์ ์๋ ๊ฒ์ ์๋์ง๋ง ์ค์ ๋ก๋ ์ฃผ๋ก attention layer์์ ์ฌ์ฉ๋๋ค. LoRA๋ฅผ ํตํด fine-tuning์ cost ์ storage ์ ์ฝํ ์ ์๋ค.
4. AnimateDiff#
โ Architecture Overall
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ชจ๋ธ์ ํต์ฌ์ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํตํด transferable model prior๋ฅผ ํ์ตํ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ํ์ตํ motion module์ personalized T2I ๋ชจ๋ธ์ ๊ณง๋ฐ๋ก ์ ์ฉํ ์ ์๋ค.
์ผ์ชฝ ๊ทธ๋ฆผ์ ํ๋์ ๋ชจ๋ธ์ด motion module์ด๊ณ , ์ด๋ก์ ์์ญ์ด optional MotionLoRA์ด๋ค. AnimateDiff๋ฅผ T2I๋ชจ๋ธ์ ์ฝ์ ํ์ฌ animation generator๋ก ์ฌ์ฉํ ์ ์๋ค.
์ด๋ฅผ ์ํ AnimateDiff์๋ ํ์ตํด์ผ ํ๋ 3๊ฐ์ ๋ชจ๋์ด ์๋ค.
domain adapter - base T2I pre-training data์ our video training data๊ฐ์ ๊ฐ๊ทน์ ์ค์ฌ์ฃผ๊ธฐ ์ํ ๊ฒ์ผ๋ก ํ์ต๊ณผ์ ์๋ง ์ฌ์ฉ๋๋ค.
motion module
- motion prior๋ฅผ ํ์ตํ๊ธฐ ์ํ ๋ชจ๋MotionLoRA(optional)
- pretrained motion module์ ์๋ก์ด ์์ง์ ํจํด(์นด๋ฉ๋ผ ์ํฌ)์ผ๋ก ์กฐ์ ํ๊ธฐ ์ํ๊ฒ
โ Training Steps
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๊ฐ ๋ชจ๋์ ๋ฐ๋ก๋ฐ๋ก ํ์ต์ํค๋ฉฐ ๊ฐ๊ฐ์ ํ์ต์ํฌ๋ ๋๋จธ์ง ์์ญ์ freeze ์ํจ๋ค. ํ์ต์ ์ฌ์ฉํ๋ objective function์ SD๊ณผ ๊ฑฐ์ ๊ฐ๋ค.
Training step 1. Domain Adapter
Training step 2. Motion Module
Training step 3. Optional motionLoRA
4.1 Alleviate Negative Effects from Training Data with Domain Adapter#
๋น๋์ค ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋นํด ์์งํ๊ธฐ ์ด๋ ต๋ค. ๋์์ ๋ฐ์ดํฐ์ WebVid (Bain et al., 2021)๊ณผ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ LAION-Aestetic (Schuhmann et al., 2022)๋ฅผ ๋น๊ตํด๋ณด๋ฉด, ํ์ง์ฐจ์ด๋ ํผ์ ์ ์ ์๋ค.
๊ฐ ๋น๋์ค ํ๋ ์์ ๊ฐ๋ณ ์ด๋ฏธ์ง๋ก ๋ค๋ฃจ๊ฒ ๋๋ฉด motion blur, compression artifacts, watermark๋ฑ์ ํฌํจํ๊ณ ์์ ์๋ ์๋ค. ๋ฐ๋ผ์ T2I ๋ชจ๋ธ์ ํ๋ จํ ๋ ์ฌ์ฉํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋นํด motion prior๋ฅผ ํ์ตํ๊ธฐ ์ํด ์ฌ์ฉํ ๋์์ ๋ฐ์ดํฐ ์ ์ ํ์ง์ ๋ฌด์ํ ์ ์์ ๋งํผ์ ์ฐจ์ด๊ฐ ์๋ค. ์ด ๋๋ฌธ์ ์ง์ ์ ์ผ๋ก ๋น๋์ค ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ ์ ๋๋ฉ์ด์ ์์ฑ ๋ชจ๋ธ์ ํ์ตํ ๊ฒฝ์ฐ, ์์ฑํ ์ ๋๋ฉ์ด์ ์ ํ์ง์ด ์ ํ ๋ ์ ์๋ค.
๋์์ ๋ฐ์ดํฐ์ ๋ฎ์ ํ์ง๋ก ์ธํด ํด๋น ํน์ฑ์ motion module์ด ํ์ตํ๋ ๊ฒ์ ํผํ๊ณ base T2I์ ์ง์์ ๋ณด์ ํ๊ธฐ ์ํด, ๋คํธ์ํฌ๋ฅผ ๋ถ๋ฆฌํ์ฌ ๊ฐ ๋๋ฉ์ธ(์์/์ด๋ฏธ์ง)์ ์ ๋ณด์ ๋ง๊ฒ ํผํ ํ๋ ๋ฐฉ์(domain adapter)์ ์ ์ํ๋ค. inference ์์๋ domain adapter๋ฅผ ์ ๊ฑฐํ์์ผ๋ฉฐ ์์ ์ธ๊ธํ domain gap์ ์ํ ๋ถ์ ์ ์ํฅ์ ์ ๊ฑฐํ๋๋ฐ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. domain adapter layer๋ LoRA๋ฅผ ํ์ฉํ์ผ๋ฉฐ, self-, cross-attention layer๋ค์ base T2I model์ Fig. 3๊ณผ ๊ฐ์ด ์ถ๊ฐํ์๋ค. ์๋ query projection์ ์๋ก ์ดํด๋ณด๋ฉด,
\(Q\) ๋ query, \(z\) ๋ internal feature, \(\alpha\) ๋ ์์๋ก inference time์ domain adapter์ ์ํฅ๋ ฅ์ ์กฐ์ ํ๋ค. (๊ธฐ๋ณธ๊ฐ์ 1 / domain adapter์ ํจ๊ณผ๋ฅผ ์์ ํ ์ ๊ฑฐํ๊ณ ์ถ๋ค๋ฉด \(\alpha\)๋ฅผ 0์ผ๋ก) ๋๋จธ์ง ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ freezeํ๊ณ domain adapter์ ํ๋ผ๋ฏธํฐ๋ค๋ง ๋น๋์ค ๋ฐ์ดํฐ์ ์ผ๋ก ๋ถํฐ ๋๋คํ๊ฒ ์ํํ static frame๋ค์ ์ด์ฉํ์ฌ ์ต์ ํํ๋ค. ์ด๋ objective function์ Eq. (2)๋ฅผ ์ฌ์ฉํ๋ค. (์์ง๊น์ง๋ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ)
4.2 Learn Motion Priors with Motion Module#
motion dynamics๋ฅผ ์ฌ์ ํ์ต๋ T2I ๋ชจ๋ธ๊ณผ ๊ณต์ ํ๋ dimension์์ ์๊ฐ์ถ์ผ๋ก ๋ชจ๋ธ๋ง ํ๊ธฐ ์ํด 2๊ฐ์ง ๋จ๊ณ๊ฐ ํ์ํ๋ค.
2d diffusion model์ 3d ๋น๋์ค ๋ฐ์ดํฐ์ ๋ง๊ฒ ํ์ฅ์์ผ์ผ ํ๋ค. (Network Inflation)
์๊ฐ์ถ์์ผ๋ก ํจ์จ์ ์ธ ์ ๋ณด์ ํ๋ฆ์ ๋ง๋ค๊ธฐ ์ํด sub-module์ด ํ์ํ๋ค. (Sub-module Design)
Network Inflation
์ฌ์ ํ์ต๋ T2I ๋ชจ๋ธ์ ์ด๋ฏธ์ง ๋ ์ด์ด๋ ๊ณ ํ์ง์ ๊ทธ๋ฆผ ์ฌ์ ์ง์(content prior)์ ํฌ์ฐฉํ ์ ์๋ค. ์ด ์ง์์ ํ์ฉ(์ ์ง)ํ๊ธฐ ์ํด์ ๋์ผ ๋ชจ๋ธ๋ก video๋ฅผ ๋ค๋ฃจ๊ณ ์ ํ ๋๋ ๊ธฐ์กด ์ด๋ฏธ์ง ๋ ์ด์ด๋ ๋ ๋ฆฝ์ ์ผ๋ก ๋ด๋ฒ๋ ค๋๊ณ , network๋ฅผ ํ์ฅ์ํค๋ ๋ฐฉํฅ์ด ์ ํธ๋๋ค. ์ด๋ฅผ ์ํด ๊ธฐ์กด ์ฐ๊ตฌ (Ho et al., 2022b; Wu et al., 2023; Blattmann et al., 2023)๋ฅผ ์ฐธ๊ณ ํ์ฌ, 5d tensor \(x\in \Bbb R^{b\times c \times f\times h\times w}\) ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ก ๋ชจ๋ธ์ ์์ ํ๋ค. \(b\)๋ batch, \(f\)๋ frame์ ๋ปํ๋ค. ๋ด๋ถ feature map์ด ์ด๋ฏธ์ง ๋ ์ด์ด๋ฅผ ์ง๋๊ฐ๋๋ ์๊ฐ ์ถ์ ์๋ฏธํ๋ \(f\)๋ \(b\)์ถ์ผ๋ก reshaping์ ํตํด ๋ฌด์ํ๋ค.
(5d tensor โ 4d tensor \(x \in \Bbb R^{bf\times c \times h\times w}\) โ (๊ธฐ์กด ์ด๋ฏธ์ง ๋ ์ด๋จธ) โ 4d tensor โ 5d tensor)
์ด๋ฅผ ํตํด ๊ฐ ํ๋ ์์ ๊ฐ๋ณ ์ด๋ฏธ์ง ์ฒ๋ผ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ค. ๋ฐ๋ฉด์ ์๋กญ๊ฒ ์ถ๊ฐ๋ motion module์ ๊ณต๊ฐ์ถ(\(h,w\))์ reshapingํ์ฌ ๋ฌด์ํ๋ค. (5d tensor โ 3d tensor \(x \in \Bbb R^{bhw\times c \times f}\) โ (motion module) โ 3d tensor โ 5d tensor)
Module Design
์ต๊ทผ ๋น๋์ค ์์ฑ ์ฐ๊ตฌ๋ค์ temporal modeling์ ๋ค์ํ ๋ฐฉ์์ ํ๊ตฌํ๊ณ ์๋ค. AnimateDiff์์๋ Transformer ๊ตฌ์กฐ๋ฅผ ์ฐจ์ฉํ์ฌ ์๊ฐ์ถ์์์ ๋์ํ๋๋ก ์์ ์์ ์ ๊ฑฐ์ณ motion module์ designํ๋ค. (์ดํ temporal Transformer) ์คํ์ ํตํด ํด๋น ๊ตฌ์กฐ๊ฐ motion prior๋ฅผ ๋ชจ๋ธ๋งํ๋๋ฐ ์ ํฉํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. Fig.3์ ๋ณด๋ฉด temporal Transformer๊ฐ ์๊ฐ์ถ์์ ๋์ํ๋ ์ฌ๋ฌ self-attn block์ผ๋ก ์ด๋ฃจ์ด์ง๊ฒ์ ๋ณผ์ ์๋ค. ๋ํ sinusoidal position encoding์ ํตํด ์ ๋๋ฉ์ด์ ์์ ๊ฐ ํ๋ ์์ ์๊ฐ์ ์์น์ ๋ณด๋ฅผ ๋ํ๋ด๊ณ ์ ํ๋ค. ์์ ์ธ๊ธํ ๋๋ก motion module์ ์ ๋ ฅํฌ๊ธฐ๋ feature map์ reshapingํ์ฌ ์กฐ์ ํ์๋ค. (\(x \in \Bbb R^{bhw\times c \times f}\)) feature map์ ์๊ฐ์ถ์ผ๋ก ๋ค์ ํผ์น๊ณ ์ ํ ๋๋ ๋ค์๊ณผ ๊ฐ์ ๊ธธ์ด \(f\), ํฌ๊ธฐ \(z_1, ...,z_f;z_i \in \Bbb R^{(b\times h\times w)\times c}\)์ vector sequence๋ก ๋ค๋ฃฐ์ ์๋ค. ํด๋น ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ self-attn block์ ํต๊ณผํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
\(Q=W^Qz, K=W^Kz, V=W^Vz\) ์ด๋ฉฐ, ๊ฐ๊ฐ ๋ถ๋ฆฌ๋ ์ธ projection์ ์๋ฏธํ๋ค. attention mechanism์ ํตํด ํ ํ๋ ์์ ์์ฑ์ ๋ค๋ฅธ ํ๋ ์์ผ๋ก ๋ถํฐ ์ถ์ถ๋ ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ ํ๋ ์์ ๊ฐ๋ณ์ ์ผ๋ก ์์ฑํ๋ ๊ฒ์ด ์๋, T2I ๋ชจ๋ธ์ ํ์ฅํ์ฌ motion module์ ์ถ๊ฐํ AnimateDiff๊ฐ ์๊ฐ์ ๋ฐ๋ฅธ visual content์ ๋ณํ๋ฅผ ์ ํฌ์ฐฉํ๊ธฐ ์ํด ํ์ตํ์ฌ motion dynamics๋ฅผ ์ด์ฉํด animation clip์ ์ ์ํ๋๋ก ํ๋ค. self-attn block์ ์ sinusoidal position encoding์ ์์ด์๋ ์๋๋ค. ํ์ง๋ง motion module ์์ฒด๊ฐ frame์ ์์๋ฅผ ์๊ณ ์๋ ๊ฒ์ ์๋๋ค.
์ถ๊ฐ์ ์ธ ๋ชจ๋์ ๋ฃ์์ผ๋ก ์ธํด ๋ฐ์ํ ์ ์๋ ๋ฌธ์ ๋ค์ ํผํ๊ธฐ ์ํด temporal Transformer์ ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ๋ 0์ผ๋ก ์ด๊ธฐํ ํ์์ผ๋ฉฐ residual connection์ ์ถ๊ฐํ์ฌ ํ๋ จ ์์์์ motion module์ด identity mapping์ผ๋ก ๋์ํ๋๋ก ํ๋ค.
4.3 Adapt to New Motion Patterns with MotionLoRA#
์ ๋ฐ์ ์ธ motion ์ง์์ motion module์ด ์ฌ์ ํ์ตํ๋๋ผ๋ ์๋ก์ด ๋์ ํจํด์ ๋ํ ์ ์ฉ์ ๋ํ ๋ฌธ์ ๋ ๋ฐ์ํ๋ค. ex. zooming, panning, rolling.
๋์ ์ฌ์ ํ์ต์ ์ํ ๋น์ฉ์ ๊ฐ๋นํ ์ ์์ด motion module์ ํน์ ์ก์ ์ ๋ง์ถฐ ํ๋ํ๊ณ ์ ํ๋ ์ฌ์ฉ์๋ฅผ ์ํด ์ ์ ์ฐธ๊ณ ๋น๋์ค(reference video)๋ ์ ์ ํ๋ จ ํ์๋ก๋ ํจ์จ์ ์ผ๋ก ๋ชจ๋ธ์ ์ ์ฉํ ์ ์๋๋ก ํ๋ ๊ฒ์ด ์ค์ํ๋ค. ์ด๋ฅผ ์ํด AnimateDiff์ MotionLoRA๋ฅผ ๋ง์ง๋ง์ผ๋ก ์ ์ฉํ๋ค. Motion Module์ ๊ตฌ์กฐ์ ์ ํ๋ ์ฐธ๊ณ ๋น๋์ค๋ฅผ ๊ณ ๋ คํ์ฌ, self-attn layers์ LoRA layers๋ฅผ inflated model์ ์ถ๊ฐํ์ฌ motion personalization์ ์ํ ํจ์จ์ ์ธ ํ์ธํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
๋ช ์ข ์ ์ดฌ์ ๋ฐฉ์์ผ๋ก ์คํ์ ์งํํ์์ผ๋ฉฐ rule-based augmentation์ ํตํด reference videos๋ฅผ ์ป์๋ค. ์๋ฅผ ๋ค์ด zooming ๋น๋์ค๋ฅผ ์ป๊ธฐ ์ํด ์๊ฐ์ ๋ฐ๋ผ ๋น๋์ค ํ๋ ์์ ์ ์ฐจ ์ค์ด๊ฑฐ๋(zoom-in) ๋๋ ค๊ฐ๋ฉฐ(zoom-out) augmentation์ ์งํํ๋ค. AnimateDiff์ MotionLoRA๋ 20~50๊ฐ ์ ๋์ ์ ์ ์ฐธ๊ณ ๋น๋์ค, 2000๋ฒ์ ํ๋ จํ์๋ก ํ์ธํ๋ํ์๋๋ ๊ด์ฐฎ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค. low-rank property๋ก ์ธํด MotionLoRA ๋ํ composition capability๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ํ์ต๋ MotionLoRA ๋ชจ๋ธ ๊ฐ๊ฐ์ด inference time์์ motion effect๋ฅผ ์ตํฉํ๊ธฐ์ํด ํ๋ ฅ(combine)ํ ์ ์์์ ๋งํ๋ค.
4.4 AnimateDiff in Practice#
Training#
Fig. 3์ ๋ณด๋ฉด AnimateDiff์๋ ํ์ต ๊ฐ๋ฅํ ๋ชจ๋์ด 3๊ฐ ์๋ค. ๊ฐ ๋ชจ๋์ objective๋ ์ฝ๊ฐ์ฉ ๋ค๋ฅด๋ค. domain adapter๋ SD์ MSE loss์ธ Eq. 2 objective function์ ํตํด ํ์ตํ๋ค. ์ ๋๋ฉ์ด์ ์ ๋ง๋๋ ์ญํ ์ ํ๋ motion module๊ณผ motion LoRA์ ๊ฒฝ์ฐ video data์ ๋ํ ์ฐจ์์ ๋ ๋ง์ด ์์ฉํ๊ธฐ ์ํด ์ฝ๊ฐ ์์ ๋ objective๋ฅผ ์ฌ์ฉํ๋ค. video data batch ( \(x_0^{1:f}\in \Bbb R^{b\times c \times f \times h \times w}\))๋ ์ฌ์ ํ์ต๋ SD์ auto-encoder๋ฅผ ์ฌ์ฉํด ๊ฐ ํ๋ ์ ๋ณ๋ก latent code \(z_0^{1:f}\)๋ก ์ธ์ฝ๋ฉ๋๋ค. ์ด latent code๋ Eq. 1 ๊ณผ ๊ฐ์ด ์ ์๋ diffusion schedule์ ๋ฐ๋ผ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ(forward process)๋๋ค.
๋ชจ๋ธ์ ์ ๋ ฅ์ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ latent codes์ ์ด ์์ด๋๋ text prompts์ด๋ฉฐ, ๋ชจ๋ธ์ forward process์์ ์ถ๊ฐ๋ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๋ค. AnimateDiff์ motion module์ ์ํ ์ต์ข training objective๋ ์๋์ ๊ฐ๋ค.
๊ฐ ๋ชจ๋๋ค(domain adapter, motion module, MotionLoRA)์ ํ์ตํ ๋, ํ์ต ํ๊ฒ์ ์ ์ธํ ์์ญ์ freeze ์ํจ๋ค ํ์ตํ๋ค.
Inference#
inference์์๋ personalized T2I model๋ ์์ ์ค๋ช ํ๋๋ก inflate๋๋ฉฐ motion module๊ณผ (optional) MotionLoRA๋ฅผ ๋ํด ์ ๋๋ฉ์ด์ ์ ์์ฑํ๋ค.
domain adapter์ ๊ฒฝ์ฐ inference์ ๊ทธ๋ฅ ๋ฐฐ์ ํ์ง ์๊ณ personalized T2I model์ injectionํ์์ผ๋ฉฐ domain adapter์ ์ํฅ๋ ฅ์ Eq. 4์ \(\alpha\)๋ฅผ ์ด์ฉํด ์กฐ์ ํ๋ค. Sec 5.3์ Ablation study์์ \(\alpha\)์ ๊ฐ์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ์ ์ฐจ์ด๋ฅผ ํ์ธํ ์ ์๋ค. ๋ง์ง๋ง์ผ๋ก animation frames์ reverse diffusion process์ ์ด๋ฅผ ํตํด ์ป์ latent codes๋ฅผ ๋์ฝ๋ฉ ํจ์ผ๋ก์จ ์ป์์ ์๋ค.
5. Experiments#
SD 1.5์ AnimateDiff๋ฅผ ์ ์ฉํ์ฌ ์คํ์ ์งํํ๋ค. ๋ํ motion module์ ํ์ตํ ๋๋ WebVid 10M ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค. (์์ธํ ์ฌํญ์ supplementary material ํ์ธํด์ฃผ์ธ์)
5.1 Qualitative Results#
5.2 Quantitative Comparison#
User Study
text, domain, smooth 3๊ฐ ์งํ์ ๋ํ ๊ฐ๋ณ ๋ฑ์๋ฅผ ์กฐ์ฌํ๋ค. Average User Ranking(AUR) ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๋์ ์ ์๋ฅผ ๊ฐ์ง๋ฉด ๋์ ํ์ง์ ์๋ฏธํ๋ preference metric์ ์ฌ์ฉํ๋ค.
CLIP metric
related paper์์ ์ธ๊ธํ๋ ์ด๋ฏธ์ง์ ํ ์คํธ์์ ๋์์ ํ์ตํ CLIP ๋ชจ๋ธ์ ํ์ฉํ ํ๊ฐ์งํ์ด๋ค. ์ฌ์ ํ์ต๋ CLIP ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ generated frames์ reference ์ฌ์ด CLIP score๋ฅผ ๊ณ์ฐํ ๊ฒ์ด๋ค.
+) CLIP score๋ CLIP encoder๋ฅผ ํต๊ณผํ ๋ฒกํฐ๋ค ์ฌ์ด ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์
Text
๊ฐ ํ๋ ์ ์๋ฒ ๋ฉ๊ณผ ์ฃผ์ด์ง ํ ์คํธ ์๋ฒ ๋ฉ ์ฌ์ด ์ฝ์ฌ์ธ ์ ์ฌ๋
Domain
์๋ณธ ์ ๋๋ฉ์ด์ ์ด ์์ผ๋ฏ๋ก reference image์ ์์ฑ๋ ์์ ์ฌ์ด CLIP score๋ฅผ ๊ตฌํจ.
Smooth
์ฐ์๋ ํ๋ ์ ์์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ์ฝ์ฌ์ธ ์ ์ฌ๋
5.3 Ablation Study#
Domain Adapter#
domain adapter์ ์ํ ํจ๊ณผ๋ฅผ ์ ๊ฑฐํ์๋ ์ ์ฒด์ ์ธ ์ด๋ฏธ์ง ํ๋ฆฌํฐ๊ฐ ๋์ ๋ณด์ด๋๋ฐ, ์ด๋ domain adapter๊ฐ video dataset์ ํน์ฑ์ด๋ผ๊ณ ํ ์ ์๋ watermark๋ ๋ชจ์ ๋ธ๋ฌ ๋ฑ์ ํ์ตํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ฆ, domain adapter๊ฐ ์ ์ฒด ํ์ต๊ณผ์ ์ ๋์์ด ๋์์์ ๋ณด์ฌ์ค๋ค.
Motion module design#
AnimateDiff์ temporal Transformer๊ตฌ์กฐ์ ์ ์ฒด convolution์ธ ๊ตฌ์กฐ์ ๋ชจ๋ธ๊ณผ ๋น๊ตํ๋ค. ๋ ๋ฐฉ์ ๋ชจ๋ ๋น๋์ค ์์ฑ ๋ถ์ผ์์ ์์ฃผ ์ฌ์ฉ๋๋ค.
temporal Transformer์ temporal attention๋ถ๋ถ์ 1D temporal convolution์ผ๋ก ๊ต์ฒดํ์ฌ ๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๊ฐ ์ ์ฌํ๊ฒ ๋์ฌ์์์ ํ์ธํ๋ค. convolution motion module์ ๋ชจ๋ ํ๋ ์์ ๋์ผํ๊ฒ ๋์์ง๋ง Transformer ๊ตฌ์กฐ์ ๋น๊ตํ์ฌ ์์ง์์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ค.
Efficiency of MotionLoRA#
parameter efficiency์ data efficiency ์ธก๋ฉด์์ MotionLoRA์ ํจ์จ์ฑ์ ์ํํด๋ณด์๋ค. ์ด๋ฅผ ์ํด parameter ๊ฐ์์ data ๊ฐ์๋ฅผ ์กฐ์ ํด๊ฐ๋ฉฐ ์ฌ๋ฌ MotionLoRA๋ฅผ ํ์ต์์ผฐ๋ค.
Parameter efficiency
ํจ์จ์ ์ธ ๋ชจ๋ธํ์ต์ ์ํด๋ ๋ชจ๋ธ์ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ์ค์ํ ๋ถ๋ถ์ด๋ค.
AnimateDiff๋ ๋น๊ต์ ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ์ ๋ค๋์๋ ๊ด์ฐฎ์ ์ ๋๋ฉ์ด์ ์ ๋ง๋ค์ ์๋ค. ๊ทธ๋ฆผ์ ์คํ์์๋ zoom-in ์นด๋ฉ๋ผ ์์ง์์ ์๋กญ๊ฒ ํ์ตํ๋ ๋ฅ๋ ฅ์ ๋ณธ๊ฒ์ด๋ค.
Data efficiency
ํน์ motion pattern์ ์ํ reference video ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ ์ค์ ๋ก ์ ์ฉํ๊ธฐ ์ํด ์ค์ํ ๋ถ๋ถ์ด๋ค.
๋ฐ์ดํฐ์ ๊ฐ์๊ฐ ์ ์๋์๋ ํ์ตํ๊ณ ์ ํ๋ ์์ง์์ ํ์ตํ ์ ์์์ผ๋ ๋ฐ์ดํฐ์ ๊ฐ์๊ฐ ๊ทน๋๋ก ์ ์ ๊ฒฝ์ฐ(N=5) ์์ฑ๋ ์ ๋๋ฉ์ด์ ํ์ง์ ๊ธ๊ฒฉํ ์ ํ๊ฐ ์์๋ค.
5.4 Controllable Generation#
visual content์ motion prior์ ๊ฐ๋ณ ํ์ต์ ํตํด AnimateDiff๊ฐ existing content๋ฅผ ์กฐ์ ํ ์ ์๋๋ก ํ๋ค. ์ด ํน์ฑ์ ํ์ธํ๊ธฐ ์ํด AnimateDiff๋ฅผ ControlNet๊ณผ ๊ฒฐํฉํ์ฌ ์์ ์์ฑ์ depth๋ฅผ ํตํด ์กฐ์ ํ ์ ์๋๋ก ํ๋ค.
DDIM inversion์ ํตํด ๋ค๋ฌ์ด์ง latent sequences๋ฅผ ์ป๊ณ ์ด๋ฅผ ๋น๋์ค ์์ฑ์ ์ฌ์ฉํ๋ ์ต์ ๋น๋์ค ์์ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ์ฌ AnimateDiff๋ randomly sampled noise๋ฅผ ์ด์ฉํ์ฌ ์ ๋๋ฉ์ด์ ์ ์์ฑํ๋ค.
6. Conclusion#
๋ณธ ๋ ผ๋ฌธ์์๋ ์ ๋๋ฉ์ด์ ์์ฑ์ ์ํ practical pipeline์ธ AnimateDiff๋ฅผ ์ ์ํ๋ค. AnimateDiff๋ฅผ ํตํด personalized text-to-image model์ ๋ฐ๋ก ์ ๋๋ฉ์ด์ ์์ฑ์ ์ฌ์ฉํ ์ ์๋ค. ์ด๋ฅผ ์ํด ๋ณธ ๋ ผ๋ฌธ์์๋ ์ธ๊ฐ์ง module์ ๋์์ธํ์์ผ๋ฉฐ ์ด๋ฅผ ํตํด AnimateDiff๋ motion prior๋ฅผ ํ์ตํ๊ณ , visual quality๋ฅผ ์ ์งํ ์ ์์ผ๋ฉฐ, MotionLoRA๋ฅผ ํตํด ๊ฐ๋ฒผ์ด finetuning์ ํตํด ์ํ๋ motion์ผ๋ก ์ ๋๋ฉ์ด์ ์ ์์ฑํ ์ ์๋ค.
motion module์ ํ๋ฒ ํ์ต๋๋ฉด ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ animate์ํค๊ณ ์ ํ ๋ ์ฌ์ฉํ ์ ์๋ค. ๋ค์ํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ํตํด AnimateDiff์ MotionLoRA์ ํจ์จ์ฑ๊ณผ ์์ฑ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ค. ๋ content-controllability์ธก๋ฉด์์๋ ์ถ๊ฐ์ ์ธ ํ์ต์์ด ๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ฌ์ฉํ ์ ์์์ ๋ณด์๋ค.
AnimateDiff๋ ์ทจํฅ์ ๊ทธ๋ฆผ์ฒด, ์บ๋ฆญํฐ์ ์์ง์, ์นด๋ฉ๋ผ ์ํฌ์ ๋ง๊ฒ ์ด๋ฏธ์ง๋ฅผ ์ ๋๋ฉ์ด์ ํ ์ํฌ ์์๋ ํจ์จ์ ์ธ ๋ฒ ์ด์ค ๋ผ์ธ์ผ๋ก์จ ๋ค์ํ ๋ฐฉ๋ฉด์ application์ ํฐ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์๋ค.
7. ์ค์ต#
์๋ ์ด๋ฏธ์ง๋ค์ ํด๋ฆญํ๋ฉด gif๋ฅผ ๋ณด์ค ์ ์์ต๋๋ค.
๐ ์ค์ต ํ ๋๋์
WebVid 10M์ด ์ ๋๋ฉ์ด์ ํ์ ์ ํฉํ ๋ฐ์ดํฐ์ ์ธ์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค.
๋ค์ํ metric์ ํ๊ฐ์ ์ฌ์ฉํ์ง ์์ ์ ์ด ์์ฝ๋ค.
ํน์ ์ ๋๋ฉ์ด์ ํด๋ฆฝ์ ์์ฑํ๊ณ ์ถ๋ค๋ฉด ์ค์ง์ ์ผ๋ก ํ์ตํด์ผ ํ๋ ๋ถ๋ถ์ motionLoRA์ ๋๋ผ ์ฌ์ฉ์ด ํธ๋ฆฌํ๋ค.
reproduction์ด ๋งค์ฐ ์ฉ์ดํ๋ค.
AnimateDiff๋ฅผ ์ ๋๋ก ํ์ฉํ๊ธฐ ์ํด์๋ personalized T2I๊ฐ ์ ์ผ ์ค์ํ ๋ถ๋ถ์ด๋ผ๊ณ ํ ์ ์๋๋ฐ, ์ํ๋ ์คํ์ผ์ pretrained T2I ๋ชจ๋ธ์ ๊ตฌํ๋ ๊ฒ์ด ์ด๋ ต๋ค. ๊ทธ๋ฆผ์ฒด๊ฐ ์ ๋ง์ง ์์ผ๋ฉด ์ ๋๋ฉ์ด์ ํด๋ฆฝ ์ด๋ฐ์ ๊ธ๊ฒฉํ ๋ณํํ๋ ๋ถ๋ถ์ด ์์ฃผ ์๊ธด๋ค.