Information
Title: DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
Reference
Author: Jeonghwa Yoo
Last updated on May. 08, 2023
DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion#
1. Introduction#
DreamPose๊ฐ ์ ์๋ ๋ฐฐ๊ฒฝ
ํจ์ ์ฌ์ง์ ์จ๋ผ์ธ์ ๋๋ฆฌ ํผ์ ธ ์์ง๋ง, ์ ๋ฌํ ์ ์๋ ์ ๋ณด๊ฐ ์ ํ์ ์ด๋ฉฐ ์ ์์ ๋ ์ท์ ๋์ด์ง ๋ชจ์์ด๋ ํ๋ฆ ๋ฑ ์ท์ ์ค์ํ ๋์์ค๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ๋ค.
ํจ์ ๋์์์ ์ด๋ฌํ ๋ชจ๋ ๋ํ ์ผ์ ๋ณด์ฌ์ฃผ๊ธฐ์ ์๋น์์ ์์ฌ ๊ฒฐ์ ์ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง๋ง, ๋์์์ด ์๋ ์ํ์ ๋งค์ฐ ๋๋ฌผ๋ค.
DreamPose
๋ณธ ๋ ผ๋ฌธ์์๋ ํฌ์ฆ ์ํ์ค๋ฅผ ๋ฐ๋ผ ํจ์ ์ฌ์ง์ ์ฌ์ค์ ์ธ ์ ๋๋ฉ์ด์ ๋น๋์ค๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ธ DreamPose๋ฅผ ์๊ฐํ๋ค.
Stable diffusion์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
ํ๋ ์ด์์ ์ฌ๋ ์ด๋ฏธ์ง์ ํฌ์ฆ ์ํ์ค๊ฐ ์ฃผ์ด์ง๋ฉด, ํฌ์ฆ ์ํ์ค๋ฅผ ๋ฐ๋ผ ๊ณ ํ์ง ๋น๋์ค๋ฅผ ์์ฑํ๋ค.
๊ธฐ์กด ๋น๋์ค ์์ฑ ๋ชจ๋ธ๋ค์ ๋ฌธ์ ์
์ด๋ฏธ์ง ์์ฑ ๋ํจ์ ๋ชจ๋ธ์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ง๋ง, ๋น๋์ค ์์ฑ ๋ํจ์ ๋ชจ๋ธ์ ๋์ผํ ํ์ง์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชปํ์ผ๋ฉฐ, ํ ์ค์ฒ ์์ง์์ด๋ ์นดํฐ๊ณผ ๊ฐ์ ๋ชจ์์ผ๋ก ์ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
์๊ฐ์ ์ผ๊ด์ฑ์ด ๋จ์ด์ง๋ค.
๋ชจ์ jitter๊ฐ ๋ฐ์ํ๋ค.
์ฌ์ค์ฑ(realism)์ด ๋ถ์กฑํ๋ค.
๋์ ๋น๋์ค์ ์์ง์์ด๋ ์ธ๋ถ์ ์ธ ๋ฌผ์ฒด ๋ชจ์์ ์ ์ดํ ์ ์๋ค.
๊ธฐ์กด ๋ชจ๋ธ์ด ์ฃผ๋ก ํ ์คํธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์
DreamPose์ ์ ๊ทผ๋ฒ
์ด๋ฏธ์ง ๋ฐ ํฌ์ฆ ์ํ์ค๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ fidelity์ ํ๋ ์ ๊ฐ ์ผ๊ด์ฑ์ ๋์ผ ์ ์๋ค.
์ด๋ฏธ์ง ๋ถํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๊ธฐ์กด ์ฌ์ ํ์ต๋ ์ด๋ฏธ์ง ๋ํจ์ ๋ชจ๋ธ์ ํ์ธ ํ๋ํ์๋ค. โ ์ด๋ฏธ์ง ์ ๋๋ฉ์ด์ ํ์คํฌ๋ฅผ ์ปจ๋์ ๋ ์ ํธ์ ์ผ์นํ๋ ์ด๋ฏธ์ง์ ๋ถ๋ถ ๊ณต๊ฐ์ ์ฐพ๋ ๊ฒ์ผ๋ก ๋จ์ํ ํ ์ ์๋ค.
ํด๋น ํ์คํฌ๋ฅผ ์ํด ์คํ ์ด๋ธ ๋ํจ์ ์ ์ธ์ฝ๋์ ์ปจ๋์ ๋ ๋ฉ์ปค๋์ฆ์ ์ฌ์ค๊ณํ์๋ค.
2-์คํ ์ด์ง ํ์ธํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค
UNet๊ณผ VAE๋ฅผ ํ๋ ํน์ ์ฌ๋ฌ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํด์ ํ์ธํ๋
Contribution
DreamPose: ํจ์ ์ด๋ฏธ์ง ์ ๋๋ฉ์ด์ ์ ์ํด ์ด๋ฏธ์ง ๋ฐ ํฌ์ฆ๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ ๋ํจ์ ๋ฐฉ์
ํ๋ ์ ๊ฐ ์๊ฐ์ ์ผ๊ด์ฑ์ ํฌ๊ฒ ํฅ์ ์ํค๋ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ ํฌ์ฆ ์ปจ๋์ ๋ ๋ฐฉ์
์ปจ๋์ ๋ ์ด๋ฏธ์ง์ fidelity๋ฅผ ๋์ฌ์ฃผ๋ split CLIP-VAE ์ธ์ฝ๋
์ด๋ฏธ์ง์ fidelity์ ์๋ก์ด ํฌ์ฆ์ ๋ํ ์ผ๋ฐํ ์ฌ์ด์ ๊ท ํ์ ํจ๊ณผ์ ์ผ๋ก ๋ง์ถ๋ ํ์ธํ๋ ์ ๋ต
3. Background#
๋ํจ์ ๋ชจ๋ธ
๋ํจ์ ๋ชจ๋ธ์ ํ์ง, ๋ค์์ฑ, ํ์ต ์์ ์ฑ ์ธก๋ฉด์์ ํฉ์ฑ ํ์คํฌ์์ GAN์ ๋ฅ๊ฐํ๋ ์ต์ ์์ฑ ๋ชจ๋ธ์ด๋ค.
ํ์ค ์ด๋ฏธ์ง ๋ํจ์ ๋ชจ๋ธ์ ์ ๊ท ๋ถํฌ๋ ๋๋ค ๋ ธ์ด์ฆ์์ ์ด๋ฏธ์ง๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๋ณต์ํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ค.
Latent diffusion modelย (ex. Stable Diffusion)
์คํ ์ธ์ฝ๋์ ์ธ์ฝ๋ฉ๋ latent space์์ ์๋ํ๋ฏ๋ก ์ต์ํ์ ํ์ง์ ํฌ์ํ๋ฉด์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ์ ์ฝํ๋ค.
์คํ ์ด๋ธ ๋ํจ์ ๋ชจ๋ธ์ VAE์ ๋๋ ธ์ด์ง UNet์ ๋ ๊ฐ์ง ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋๋ค.
VAE ์คํ ์ธ์ฝ๋
์ธ์ฝ๋ \(\mathcal{E}\): ํ๋ ์ \(x\)๋ฅผ ์ปดํฉํธํ latent ํํ \(z\)๋ก ์ถ์ถ (\(z=\mathcal{E}\)\((x)\))
๋์ฝ๋ \(\mathcal{D}\): latent ํํ์์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ (\(xโ=\mathcal{D}(z)\))
ํ์ตํ๋ ๋์, latent feature \(z\)๋ ๊ฒฐ์ ๋ก ์ ๊ฐ์ฐ์์ ํ๋ก์ธ์ค์ ์ํด ํ์ ์คํฌํ \(T\)๋ก ๋ํจ์ฆ๋์ด ๋ ธ์ด์ง feature์ธ \(\tilde{z}_T\)๋ฅผ ๋ง๋ฆ
์๋ณธ ์ด๋ฏธ์ง๋ฅผ ๋ณต๊ตฌํ๊ธฐ ์ํด ๊ฐ ํ์์คํฌํ์ ํด๋นํ๋ latent feature์ ๋ ธ์ด์ฆ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์์ธกํ๋๋ก ์๊ฐ์ผ๋ก ์ปจ๋์ ๋๋ UNet์ด ํ์ต ๋๋ค.
UNet์ ๋ชฉ์ ํจ์
\[ \begin{align}{\cal L}_{D M}=\mathbb{R}_{z,\epsilon\in{\mathcal{N}}(0,1)}[||\epsilon-\epsilon_{\theta}({\tilde{z}}_{t},t,c)]|_{2}^{2}]\end{align} \]c: ์ปจ๋์ ๋ ์ ๋ณด์ ์๋ฒ ๋ฉ (ํ ์คํธ, ์ด๋ฏธ์ง, ์ธ๊ทธ๋ฉํ ์ด์ ๋ง์คํฌ๋ฑ, ์คํ ์ด๋ธ ๋ํจ์ ์์๋ CLIP ํ ์คํธ ์ธ์ฝ๋๋ก๋ถํฐ ์ป์ด์ง
์์ธก๋ latentย \(zโ\)์ ์์ธก๋ ์ด๋ฏธ์ง \(xโ = \mathcal{D}(z')\)๋ฅผ ๋ณต๊ตฌํ๋๋ก ๋์ฝ๋ฉ ๋๋ค.
Classifier-free guidance
Implicit classifier๋ฅผ ํตํด ์์ธก๋ ๋ ธ์ด์ฆ ๋ถํฌ๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง ๋ถํฌ๋ก ๋ฐ์ด๋ถ์ด๋ ์ํ๋ง ๋ฉ์ปค๋์ฆ์ด๋ค.
์ด๋ ๋๋คํ ํ๋ฅ ๋ก ์ค์ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ ์ ๋ ฅ(โ )์ผ๋ก ๋์ฒดํ๋ ํ๋ จ ๋ฐฉ์์ธ ๋๋กญ์์์ ํตํด ๋ฌ์ฑ๋๋ค.
์ธํผ๋ฐ์คํ๋ ๋์ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง ์์ธก์ ์ค์นผ๋ผ ๊ฐ์ค์น s๋ฅผ ์ฌ์ฉํ์ฌ unconditionalํ ์์ธก์ ์กฐ๊ฑด๋ถ๋ก ๊ฐ์ด๋ํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
\[ \begin{align}\epsilon_{\theta}=\epsilon_{\theta}(\tilde{z}_{t},t,\emptyset)+s\cdot(\epsilon_{\theta}(\tilde{z}_{t},t,\mathrm{c})-\epsilon_{\theta}(\tilde{z}_{t},t,\emptyset))\end{align} \]\(\epsilon_{\theta}(\tilde{z}_{t},t,\emptyset)\): ์กฐ๊ฑด์ด ์๋ ๊ฒฝ์ฐ์ ๋ ธ์ด์ฆ ๋ฒกํฐ
\(\epsilon_{\theta}(\tilde{z}_{t},t,c)\): ์กฐ๊ฑด์ด ์๋ ๊ฒฝ์ฐ์ ๋ ธ์ด์ฆ ๋ฒกํฐ
โ ์กฐ๊ฑด์ Null๋ก ์คฌ์ ๋์ ๋ชจ๋ธ์ ์์ธก๊ฐ๊ณผ ์กฐ๊ฑด์ ์คฌ์ ๋์ ๋ชจ๋ธ์ด ์์ธก๊ฐ์ ๋ณด๊ฐํ๋ค.
4. Method#
๋ณธ ๋ ผ๋ฌธ์์๋ ๋จ์ผ ์ด๋ฏธ์ง์ ํฌ์ฆ ์ํ์ค๋ก๋ถํฐ ์ฌ์ค์ ์ธ ์ ๋๋ฉ์ด์ ๋์์์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
์ด๋ฅผ ์ํด ํจ์ ๋์์ ์ปฌ๋ ์ ์์ ์ฌ์ ํ์ต๋ ์คํ ์ด๋ธ ๋ํจ์ ์ ํจ์ ๋์์ ์ปฌ๋ ์ ์ ๋ง๊ฒ ํ์ธํ๋ํ๋ค.
์ถ๊ฐ ์ปจ๋์ ๋ ์ ํธ(์ด๋ฏธ์ง ๋ฐ ํฌ์ฆ)๋ฅผ ๋ฐ๊ณ ๋์์์ผ๋ก ๋ณผ ์ ์๋ ์๊ฐ์ ์ผ๋ก ์ผ๊ด๋ ์ฝํ ์ธ ๋ฅผ ์ถ๋ ฅํ๊ธฐ ์ํด ์คํ ์ด๋ธ ๋ํจ์ ์ ๊ตฌ์กฐ๋ฅผ ์กฐ์ ํ๋ ์์ ์ด ํฌํจ๋๋ค.
4.1. Overview#
์ ์ถ๋ ฅ
์ ๋ ฅ: ์ ๋ ฅ ์ด๋ฏธ์ง \(x_0\), ํฌ์ฆ \(\{p_1, โฆ, p_n\}\)
์ถ๋ ฅ: ๋น๋์ค \(\{x'_1, โฆ, xโ_N\}\) (\(xโ_i\): ์ ๋ ฅ ํฌ์ฆ \(p_i\)์ ํด๋นํ๋ i ๋ฒ์งธ ์์ธก๋ ํ๋ ์)
์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ์ฆ ์ํ์ค๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ ์ฌ์ ํ๋ จ๋ latent diffusion model์ ์ฌ์ฉํ๋ค.
์ถ๋ก ์์๋ ์ผ๋ฐ์ ์ธ ๋ํจ์ ์ํ๋ง ์ ์ฐจ๋ฅผ ํตํด ๊ฐ ํ๋ ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ๋ค.
๊ท ์ผํ๊ฒ ๋ถํฌ๋ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ก ์์ํ์ฌ ๋ ์กฐ๊ฑด ์ ํธ๋ก ๋ํจ์ ๋ชจ๋ธ์ ๋ฐ๋ณต์ ์ผ๋ก ์ฟผ๋ฆฌํ์ฌ noisy latent์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ค.
๋ง์ง๋ง์ผ๋ก ์์ธก๋ ๋๋ ธ์ด์ฆ๋ latent \(zโ_i\)๋ฅผ ๋์ฝ๋ฉํ์ฌ ์์ธก๋ ๋น๋์ค ํ๋ ์ \(xโ_i=\mathcal{D}(zโ_i)\)๋ฅผ ๋ง๋ ๋ค.
4.2. Architecture#
์ด๋ฏธ์ง ์ ๋๋ฉ์ด์ ์ ์ํด ์๋์ text-to-image ์คํ ์ด๋ธ ๋ํจ์ ๋ชจ๋ธ์ ์์ ํ๊ณ ํ์ธํ๋ํ๋ค. (์กฐ๊ฑด: ์ด๋ฏธ์ง, ํฌ์ฆ)
์ด๋ฏธ์ง ์ ๋๋ฉ์ด์ ์ ๋ชฉํ
์ ๊ณต๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํ ์ถฉ์ค๋
์๊ฐ์ ํ์ง
์์ฑ๋ ํ๋ ์์ ์ ๋ฐ์ ์ธ ์๊ฐ์ ์ธ ์์ ์ฑ
์ด๋ฌํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ํคํ ์ฒ๋ฅผ ์๋์ ๊ฐ์ด ๊ตฌ์ฑํ์๋ค.
4.2.1 Split CLIP-VAE Encoder#
ํด๋น ๋ชจ๋-์ปจ๋์ ๋ ์ด๋ํฐ(custom conditioning adapter)์ ํ์์ฑ
์ด๋ฏธ์ง๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฃ๊ธฐ ์ํ ์ด์ ์ฐ๊ตฌ (ex: InstructPix2Pix)๋ ์ฃผ๋ก ์กฐ๊ฑด์ผ๋ก ๋ค์ด์ค๋ ์ด๋ฏธ์ง ์ ํธ๋ฅผ ๋๋ ธ์ด์ง U-Net์ ๋ํ ์ ๋ ฅ ๋ ธ์ด์ฆ์ concatํ๋ค.
์ด๋ ์ํ๋ ์ถ๋ ฅ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ์ผ๋ก(spatially) ์ ๋ ฌ๋ ์กฐ๊ฑด ์ ํธ์ ๋ํ ์กฐ๊ฑดํ์ ํจ๊ณผ์ ์ด์ง๋ง, DreamPose์ ๊ฒฝ์ฐ์๋ ๋คํธ์ํฌ๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ์ผ๋ก ์ ๋ ฌ๋์ง ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
๋ฐ๋ผ์ ํด๋น ํ์คํฌ์๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ด ํ์ํ๊ณ , ์ด๋ฅผ ์ํด ๋ง์ถคํ ์ปจ๋์ ๋ ์ด๋ํฐ๋ฅผ ๊ตฌํํ์๋ค.
๋ง์ถคํ ์ปจ๋์ ๋ ์ด๋ํฐ๋ CLIP ํ ์คํธ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ์กฐ๊ฑดํ๋ฅผ ๋์ฒดํ๋ ๋ง์ถคํ ์ปจ๋์ ๋ ์ด๋ํฐ(custom conditioning adapter)๋ฅผ ๊ตฌํํ์๋ค.
์ด ์ด๋ํฐ๋ ์ฌ์ ํ์ต๋ CLIP ์ด๋ฏธ์ง ๋ฐ VAE ์ธ์ฝ๋์์ ์ธ์ฝ๋ฉ๋ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ค.
๋ํจ์ ๊ธฐ๋ฐ ํ์ธํ๋
๋ชฉํ: ์ ๋ ฅ ์ ํธ๋ฅผ ์๋ ๋คํธ์ํฌ ํ์ต์ ์ฌ์ฉ๋ ์ ํธ์ ์ต๋ํ ์ ์ฌํ๊ฒ ๋ง๋ค์ด ํ์ต ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋ฅํ ํ ์๋ฏธ ์๊ฒ ๋ง๋๋ ๊ฒ โ ํ์ต๋ prior ๊ฐ์ ์์ค์ ๋ฐฉ์งํ๋ ๋ฐ ๋์์ด ๋๋ค.
์ด๋ฌํ ์ด์ ๋ก ๋๋ถ๋ถ์ ๋ํจ์ ๊ธฐ๋ฐ ํ์ธํ๋ ์ฒด๊ณ๋ ๋ชจ๋ ์๋ ์ปจ๋์ ๋ ์ ํธ๋ฅผ ์ ์งํ๊ณ ์๋ก์ด ์ปจ๋์ ๋ ์ ํธ์ ์ํธ ์์ฉํ๋ ๋คํธ์ํฌ ๊ฐ์ค์น๋ฅผ 0์ผ๋ก ์ด๊ธฐํํ๋ค.
VAE Encoder์ ํ์์ฑ
์คํ ์ด๋ธ ๋ํจ์ ์ด ํ ์คํธ ํ๋กฌํํธ์ CLIP ์๋ฒ ๋ฉ์ผ๋ก ์ปจ๋์ ๋ ๋๊ณ CLIP์ด ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๊ณต์ ์๋ฒ ๋ฉ ์คํ์ด์ค(shared embedding space)๋ก ์ธ์ฝ๋ฉํ๋ค๋ ์ ์ ๊ฐ์ํ ๋ CLIP ์ปจ๋์ ๋์ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง ์ด๋ฏธ์ง์์ ํ์๋ ์๋ฒ ๋ฉ์ผ๋ก ๊ฐ๋จํ ๋์ฒดํ๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์ ๋ณด์ผ ์ ์๋ค.
ํ์ง๋ง ์ค์ ๋ก๋ CLIP ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๋ง์ผ๋ก๋ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง ์ด๋ฏธ์ง์์ ์ธ๋ฐํ ๋ํ ์ผ์ ์บก์ฒํ๊ธฐ์ ์ถฉ๋ถํ์ง ์๋ค.
๋ฐ๋ผ์ ์คํ ์ด๋ธ ๋ํจ์ ์ VAE์์ ์ธ์ฝ๋ฉ๋ latent ์๋ฒ ๋ฉ์ ์ถ๊ฐ๋ก ์ ๋ ฅํ๋ค.
์ด๋ฅผ ํตํด ๋ํจ์ ์ ์ถ๋ ฅ ๋๋ฉ์ธ๊ณผ ์ผ์นํ๋ ์ถ๊ฐ์ ์ธ ์ฅ์ ์ ๊ฐ์ง๊ฒ ๋๋ค.
์ด๋ํฐ \(\mathcal{A}\)
์คํ ์ด๋ธ ๋ํจ์ ์ํคํ ์ฒ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ปจ๋์ ๋ ์ ํธ๋ก VAE latent๋ฅผ ์ง์ํ์ง ์๊ธฐ ๋๋ฌธ์ ์ด๋ํฐ ๋ชจ๋ \(\mathcal{A}\)๋ฅผ ์ถ๊ฐํ๋ค.
ํด๋น ์ด๋ํฐ๋ CLIP๊ณผ VAE ์๋ฒ ๋ฉ์ ๊ฒฐํฉํ์ฌ ๋คํธ์ํฌ์ ์ผ๋ฐ์ ์ธ cross-attention ์ฐ์ฐ์ ์ฌ์ฉ๋๋ ํ๋์ ์๋ฒ ๋ฉ์ ์์ฑํ๋ค.
์ด ์ด๋ํฐ๋ ๋ ์ ํธ๋ฅผ ํจ๊ป ํผํฉํ๊ณ ๋๋ ธ์ด์ง U-Net์ cross-attention ๋ชจ๋์์ ์์ํ๋ ์ผ๋ฐ์ ์ธ ๋ชจ์์ผ๋ก ์ถ๋ ฅ์ ๋ณํํ๋ค.
๋ํจ์ ๊ธฐ๋ฐ ํ์ธํ๋์์ ์ธ๊ธํ ๋ฏ์ด ํ์ต์์ ๋คํธ์ํฌ์ ์ถฉ๊ฒฉ์ ์ํํ๊ธฐ ์ํด ์ฒ์์๋ VAE ์๋ฒ ๋ฉ์ ํด๋นํ๋ ๊ฐ์ค์น๋ 0์ผ๋ก ์ค์ ๋์ด ๋คํธ์ํฌ๊ฐ CLIP ์๋ฒ ๋ฉ์ผ๋ก๋ง ํ์ต์ ์์ํ๋ค.
์ต์ข ์ด๋ฏธ์ง ์ปจ๋์ ๋ ์ ํธย \(c_I\)๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
4.2.2 Modified UNet#
์ด๋ฏธ์ง ์ปจ๋์ ๋๊ณผ ๋ฌ๋ฆฌ ํฌ์ฆ ์ปจ๋์ ๋์ ์ด๋ฏธ์ง์ ์ ๋ ฌ ๋๋ค.
Noisy latent \(\tilde{z}_i\)๋ฅผ ํ๊ฒ ํฌ์ฆ ํํ \(c_p\)์ concatํ๋ค.
์ค์ ๋น๋์ค์์ ์ถ์ ๋ ํฌ์ฆ์ ๋ ธ์ด์ฆ๋ฅผ ๊ณ ๋ คํ๊ณ ์์ฑ๋ ํ๋ ์์์์ ์๊ฐ์ ์ผ๊ด์ฑ์ ๊ทน๋ํํ๊ธฐ ์ํด, \(c_p\)๋ฅผ ๋ค์ฏ ๊ฐ์ ์ฐ์๋ ํฌ์ฆ ํ๋ ์์ผ๋ก ๊ตฌ์ฑํ์๋ค. ์ฆ, \(c_p = \{p_{i-2}, p_{i-1}, pi, p_{i+1}, p_{i+2}\}\) โ ๊ฐ๋ณ ํฌ์ฆ๋ก ๋คํธ์ํฌ๋ฅผ ํ์ตํ๋ ๊ฒ๋ณด๋ค ์ฐ์ ํฌ์ฆ๋ก ํ์ตํ๋ฉด ์ ๋ฐ์ ์ธ ์์ง์์ ๋ถ๋๋ฌ์๊ณผ ์๊ฐ์ ์ผ๊ด์ฑ์ด ์ฆ๊ฐํ๋ค.
๊ตฌ์กฐ์ ์ผ๋ก 0์ผ๋ก ์ด๊ธฐํ๋ 10๊ฐ์ ์ถ๊ฐ ์ ๋ ฅ ์ฑ๋์ ๋ฐ์๋ค์ด๋๋ก UNet ์ ๋ ฅ ๋ ์ด์ด๋ฅผ ์์ ํ๊ณ noisy latent์ ํด๋นํ๋ ์๋ ์ฑ๋์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น์์ ์์ ๋์ง ์๋๋ค.
4.2.3 Finetuning#
์คํ ์ด๋ธ ๋ํจ์ ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ๋ ์ด์ด weight๋ ๋ฏธ๋ฆฌ ํ์ต๋ text-to-image ์คํ ์ด๋ธ ๋ํจ์ ์ฒดํฌํฌ์ธํธ๋ก ์ด๊ธฐํ๋๋ค.
์ด ๋, CLIP ์ด๋ฏธ์ง ์ธ์ฝ๋๋ ๋ณ๋์ ๋ฏธ๋ฆฌ ํ์ต๋ ์ฒดํฌํฌ์ธํธ์์ ๋ก๋๋๋ค.
์๋ก์ด ๋ ์ด์ด๋ ์ด๊ธฐ์ ์๋ก์ด ์ปจ๋์ ๋ ์ ํธ๊ฐ ๋คํธ์ํฌ ์ถ๋ ฅ์ ๊ธฐ์ฌํ์ง ์๋๋ก ์ด๊ธฐํ ๋๋ค.
์ด๊ธฐํ ํ DreamPose๋ ์๋์ ๋ ๋จ๊ณ๋ก ํ์ธํ๋๋๋ค.
Full Dataset Finetuning
์ ์ฒด ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ํ UNet๊ณผ ์ด๋ํฐ ๋ชจ๋์ ํ์ธ ํ๋ํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง ๋ฐ ํฌ์ฆ์ ์ผ์นํ๋ ํ๋ ์์ ํฉ์ฑํ๋ค.
Subset-Specific Finetuning
ํ๋ ์ด์์ ํผ์ฌ์ฒด๋ณ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํด UNet๊ณผ ์ด๋ํฐ ๋ชจ๋์ ํ์ธํ๋ํ ๋ค์ VAE ๋์ฝ๋๋ฅผ ํตํด ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๊ฐ์ ํ์ฌ ์ถ๋ก ์ ์ฌ์ฉ๋๋ ํผ์ฌ์ฒด๋ณ ๋ง์ถคํ ๋ชจ๋ธ์ ์์ฑํ๋ค.
๋ค๋ฅธ ์ด๋ฏธ์ง ์กฐ๊ฑด๋ถ ๋ํจ์ ๋ฐฉ๋ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ฌ๋๊ณผ ์์์ identity๋ฅผ ๋ณด์กดํ๊ณ ํ๋ ์ ๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ ค๋ฉด ์ํ๋ณ ํ์ธํ๋์ด ํ์์ ์ด์๋ค.
๊ทธ๋ฌ๋ ๋จ์ํ ๋จ์ผ ํ๋ ์๊ณผ ํฌ์ฆ ์์ ๋ํด ํ๋ จํ๋ฉด ํ ์ค์ฒ ๊ณ ์ฐฉ(texture-sticking)๊ณผ ๊ฐ์ ์ํฐํฉํธ๊ฐ ์ถ๋ ฅ ๋น๋์ค์ ๋ฐ์ํ๋ค.
์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๊ฐ ๋จ๊ณ์์ ๋๋ค ํฌ๋กญ์ ์ถ๊ฐํ๋ ๋ฑ์ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฏธ์ง-ํฌ์ฆ์์ ์ฆ๊ฐํ๋ค.
VAE ๋์ฝ๋๋ฅผ ํ์ธํ๋ํ๋ ๊ฒ์ด ๋ ์ ๋ช ํ๊ณ ์ฌ์ค์ ์ธ ๋ํ ์ผ์ ๋ณต๊ตฌํ๋ ๋ฐ ์ค์ํ๋ค.
4.4. Pose and Image Classifier-Free Guidance#
์ถ๋ก ์ ๋จ์ผ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํผ์ฌ์ฒด๋ณ ๋ชจ๋ธ(subject-specific model)์ ์ฌ์ฉํ๋ ์ผ๋ จ์ ํฌ์ฆ์์ ํ๋ ์๋ณ๋ก ๋์์์ ์์ฑํ๋ค.
์ด์ค(dual) classifier-free guidance๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๋ก ์์ ์ด๋ฏธ์ง ์ปจ๋์ ๋ \(c_I\)์ ํฌ์ฆ ์ปจ๋์ ๋ \(c_p\)์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ค.
์ด์ค classfier-free guidance๋ ์ (3)์์ ๋ค์๊ณผ ๊ฐ์ด ์์ ๋๋ค.
\[\begin{split} \begin{align*} {\epsilon_{\theta}(z_{t},c_{I},c_{p})} & {= \epsilon_{\theta}(z_{t},\emptyset,\emptyset)} \\ {} & {+\, s_{I}(\epsilon_{\theta}(z_{t},c_{I},\mathcal{\emptyset})-\epsilon_{\theta}(z_{t},\emptyset,\emptyset))} \\ {} & {+\, s_{p}(\epsilon_{\theta}(z_{t},\mathcal{c}_{I},\mathcal{c}_p)-\epsilon_{\theta}(z_{t},\mathcal{c}_{I},\emptyset))} \end{align*} \end{split}\]\(s_I\), \(s_p\): ๊ฐ์ด๋์ค ์จ์ดํธ
\(c_I\): ์ด๋ฏธ์ง ์ปจ๋์ ๋
\(c_p\): ํฌ์ฆ ์ปจ๋์ ๋
โ ์ด๋ฏธ์ง ์ปจ๋์ ๋์ด ์๋ ๊ฒฝ์ฐ์ ์๋ ๊ฒฝ์ฐ์ ๋ ธ์ด์ฆ ๋ฒกํฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๊ณ , ํฌ์ฆ ์ปจ๋์ ๋์ด ์๋ ๊ฒฝ์ฐ์ ์๋ ๊ฒฝ์ฐ์ ๋ ธ์ด์ฆ ๋ฒกํฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐํด์ ์ด๋ฅผ ๊ฐ์ด๋์ค ์จ์ดํธ๋ฅผ ํตํด ๊ฐ๋๋ฅผ ์กฐ์ ํด์ ๋ฐ์
\(s_I\)๊ฐ ํฌ๋ฉด ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋์ ์ธ๊ด ์ถฉ์ค๋๋ฅผ ๋ณด์ฅํ๊ณ , \(s_p\)๊ฐ ํฌ๋ฉด ์ ๋ ฅ ํฌ์ฆ์ ๋ํ ์ ๋ ฌ์ ๋ณด์ฅํ๋ค.
์ด์ค classifier-free guidance๋ ํฌ์ฆ ๋ฐ ์ด๋ฏธ์ง ๊ฐ์ด๋๋ฅผ ๊ฐํํ๋ ๊ฒ ์์ธ๋, ํผ์ฌ์ฒด๋ณ ๋ชจ๋ธ ํ์ธํ๋ ํ ํ๋์ ์ ๋ ฅ ํฌ์ฆ์ ๋ํ ์ค๋ฒํผํ ์ ๋ฐฉ์งํ๋ค.
5. Experiments#
5.1. Implementation Details#
์ ๋ ฅ ์ด๋ฏธ์ง resolution: 512x512
GPU: NVIDIA A100 2๊ฐ
์ฒซ ๋ฒ์งธ ํ๋ จ ๋จ๊ณ
์ ์ฒด ํ๋ จ ๋ฐ์ดํฐ์ ์ฌ์ฉ
5 epoch
5e-6 learning rate
๋ฐฐ์น์ฌ์ด์ฆ: 16 (4 gradient accumulation step)
Dropout: ํฌ์ฆ ์ ๋ ฅ 5%, ์ด๋ฏธ์ง ์ ๋ ฅ 5%
๋ ๋ฒ์งธ ํ๋ จ ๋จ๊ณ
ํน์ ์ํ ํ๋ ์ ์ฌ์ฉ
500 step
1e-5 learning rate
Dropout ์ ์ฉ X
VAE ๋์ฝ๋ ํ์ธํ๋
1500 step
5e-5 learning rate
์ถ๋ก ์์๋ PNDM ์ํ๋ฌ ์ฌ์ฉ (100step)
5.2. Dataset#
UBC Fashion ๋ฐ์ดํฐ์ ์ฌ์ฉ
Split
Train: 339๊ฐ์ ์์
Test: 100๊ฐ์ ์์
๊ฐ ๋น๋์ค์ ํ๋ ์ ์๋๋ ์ด๋น 30ํ๋ ์์ด๋ฉฐ ๊ธธ์ด๋ ์ฝ 12์ด
ํ์ต ์ค์๋ ํ์ต ๋น๋์ค๋ก๋ถํฐ ๋๋ค์ผ๋ก ํ๋ ์ ์์ ์ํ๋ง ํ์๋ค.
DensePose๋ฅผ ์ด์ฉํด์ ํฌ์ฆ๋ฅผ ๊ณ์ฐํ์๋ค.
6. Results#
6.1. Comparisons#
๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๋ ๊ฐ์ง ์ต์ ๋น๋์ค ํฉ์ฑ ๋ฐฉ๋ฒ์ธ MRAA(Motion Representations for Articulated Animation)๊ณผ Thin-Plate Spline Mothion Model(TPSMM)๊ณผ ์์น์ ๋ฐ ์ ์ฑ์ ์ธ ๋น๊ต๋ฅผ ํ์๋ค.
์ ๊ณต๋ ํ๋ จ ์คํฌ๋ฆฝํธ์ ๊ถ์ฅ ์ํญ ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๊ฐ์ง ๋ชจ๋ธ์ UBC ํจ์ ๋ฐ์ดํฐ์ ์ ์ด์ฉํด์ ์คํฌ๋์น๋ถํฐ ํ์ตํ์๋ค.
ํ๊ฐ๋ฅผ ์ํด์๋ AVD ๋ชจ๋์์ ์ ๊ณต๋ ํ ์คํธ ์คํฌ๋ฆฝํธ๋ฅผ ์ฌ์ฉํ์๋ค.
PIDM๊ณผ๋ ์ ์ฑ์ ์ธ ๋น๊ต๋ฅผ ํ์๋ค. PIDM์ ๊ฒฝ์ฐ ํ๋ จ ์คํฌ๋ฆฝํธ๋ฅผ ์ฌ์ฉํ ์ ์์ด์ DeepFashion ๋ฐ์ดํฐ์ ์ ๋ํด ํ์ต๋ ์ฒดํฌํฌ์ธํธ๋ฅผ ํตํด ๋น๊ตํ์๋ค.
100๊ฐ์ ๋๋ ธ์ด์ง ์คํ ์ ์ฌ์ฉํ์ฌ PIDM๊ณผ DreamPose๋ฅผ ์คํํ์๋ค.
6.1.1 Quantitative Analysis#
256 ํฝ์ ํด์๋์ 100๊ฐ์ ๊ณ ์ ํ ํจ์ ๋์์์ผ๋ก ๊ตฌ์ฑ๋ UBC ํจ์ ํ ์คํธ ์ ์ ๋ํด ๋ชจ๋ ๋ชจ๋ธ์ ํ ์คํธ ํ์๋ค.
๊ฐ ๋์์์ ๋ํด ์ ๋ ฅ ํ๋ ์์์ ์ต์ 50ํ๋ ์ ์ด์ ๋จ์ด์ ธ ์๋ 50๊ฐ์ ํ๋ ์์ ์ถ์ถํ์ฌ ํ ์คํธํ์๋ค.
MRAA์ TPSMM์ ๋ชจ๋ driving video์์ ์ถ์ถ๋ feautre์ ์์กดํ๋ ๋ฐ๋ฉด, DreamPose๋ UV-ํฌ์ฆ ์ํ์ค์๋ง ์์กดํ๋ค๋ ์ ์ ์ ์ํ๋ผ.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ DreamPose ๋ชจ๋ธ์ ๋ค ๊ฐ์ง ์ ๋์ ์งํ ๋ชจ๋์์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ๋ณด๋ค ์ ๋์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค.
6.2.2 Qualitative Analysis#
MRAA์ TPSMM์ ์๋ก์ด ํฌ์ฆ๋ฅผ ์ทจํ ๋ ์ธ๋ฌผ์ identity, ์ท๊ฐ ์ฃผ๋ฆ, ๋ฏธ์ธํ ํจํด์ด ์์ค๋๋ ๋ฐ๋ฉด DreamPose๋ ๋ํ ์ผ์ ์ ํํ๊ฒ ์ ์งํ๋ค.
ํฌ์ฆ๋ฅผ ํฌ๊ฒ ๋ณ๊ฒฝํ๋ ๋์ MRAA๋ ํ ๋ค๋ฆฌ๊ฐ ๋ถ๋ฆฌ ๋ ์ ์๋ค.
PIDM๊ณผ์ ๋น๊ต
DreamPose๋ ์ผ๊ตด์ identity์ ์์ ํจํด ๋ชจ๋ ๋ ์ถฉ์ค๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ค.
PIDM์ ์ฌ์ค์ ์ธ ์ผ๊ตด์ ํฉ์ฑํ์ง๋ง, ์๋ณธ ์ธ๋ฌผ์ identity์ ์ผ์นํ์ง ์๊ณ , identity์ ์ท์ฐจ๋ฆผ์ด ํ๋ ์๋ง๋ค ๋ฌ๋๋ค. โ PIDM์ด ๋น๋์ค ํฉ์ฑ์์๋ ์ ๋์ํ์ง ์๋๋ค.
6.2. Ablation Studies#
์๋ ๋ค ๊ฐ์ง ๋ณํ์ ๋ํด ์ฑ๋ฅ์ ๋น๊ตํ๋ค.
\(\text{Ours}_{\text{CLIP}}\): ๋์ผ CLIP-VAE ์ธ์ฝ๋ ๋์ ์ ์ฌ์ ํ์ต๋ CLIP ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ฌ์ฉ โ CLIP-VAE ์ธ์ฝ๋ ํจ๊ณผ ํ ์คํธ
\(\text{Ours}_{\text{NO-VAE-FT}}\): VAE ๋์ฝ๋๋ฅผ ํ์ธํ๋ํ์ง ์์ ๋ฒ์ โ ๋์ฝ๋ ํ์ธํ๋ ํจ๊ณผ ํ ์คํธ
\(\text{Ours}_{\text{1-pose}}\): 5๊ฐ์ ์ฐ๊ฒฐ๋ ์ฐ์ ํฌ์ฆ ๋์ ํ๋์ ๋์ ํฌ์ฆ๋ง ๋ ธ์ด์ฆ์ ์ฐ๊ฒฐํ ๋ฒ์ โ ์ฐ๊ฒฐ๋ 5๊ฐ์ ํ๋ ์ ํจ๊ณผ ํ ์คํธ
\(\text{Ours}_{\text{Full}}\): ๋ ผ๋ฌธ์์ ์ ์ํ ๋ชจ๋ ๋ฐฉ๋ฒ์ด ๋ค ์ ์ฉ๋ DreamPose
Quantitative Comparison
Qualitative Comparison
๊ธฐ์กด์ ์คํ ์ด๋ธ ๋ํจ์ ์์๋ ์ธ๋ฌผ์ identity์ ๋ํ ๋ํ ์ผ์ ๋ณด์กดํ ์ ์์๋ค.
ํ ์คํธ ์ธ์ฝ๋๋ฅผ CLIP ์ธ์ฝ๋๋ก ๊ต์ฒดํ ๊ฒฐ๊ณผ ๋๋ถ๋ถ์ ์ด๋ฏธ์ง ๋ํ ์ผ์ ์บก์ฒํ ์ ์์ง๋ง, ์ฌ์ ํ ์ธํ์ ๋ํ ์ ๋ณด ์์ค์ด ๋ฐ์ํ๋ค.
VAE ๋์ฝ๋๋ฅผ ํ์ธํ๋ํ๋ฉด ๋ํ ์ผ์ ์ ๋ช ๋๊ฐ ํฌ๊ฒ ํฅ์๋๊ณ ์ ๋ ฅ ํฌ์ฆ์ ๋ํ ์ค๋ฒํผํ ์ด ๋ฐ์ํ์ง ์๋๋ค.
ํ ๊ฐ์ง ํฌ์ฆ๋ง ์ ๋ ฅํ๋ฉด ํ๊ณผ ๋จธ๋ฆฌ์นด๋ฝ ์ฃผ๋ณ์์์ ํผ์ฌ์ฒด์ ํํ๊ฐ ๋์ ๋๊ฒ ๊น๋ฐ์ด๋ ํ์์ด ๋ํ๋ฌ๋ค.
6.3. Multiple Input Images#
DreamPose๋ ํผ์ฌ์ฒด์ ๋ํ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ ์ฅ ๋ฃ์ด์ ํ์ธํ๋ํ ์ ์๋ค.
ํผ์ฌ์ฒด์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ถ๊ฐํ๋ฉด ํ์ง๊ณผ ์์ ์ ์ผ๊ด์ฑ์ด ํฅ์๋๋ค.
7. Limitations & Future Work#
์คํจ ์ฌ๋ก
๋๋ฌธ ๊ฒฝ์ฐ์ง๋ง ํ๋ค๋ฆฌ๊ฐ ์ท ์์ผ๋ก ์ฌ๋ผ์ง๊ณ (์ผ์ชฝ), hallucinate feature๊ฐ ๋ณด์ด๊ณ (์ค๊ฐ)์ ๋์ ํฌ์ฆ๊ฐ ๋ค๋ฅผ ํฅํ ๋ ๋ฐฉํฅ์ด ์๋ชป ์ ๋ ฌ ๋๋ ๊ฒฝ์ฐ(์ค๋ฅธ์ชฝ)๊ฐ ๊ด์ฐฐ๋๋ค.
๋ํ ๋จ์ํ ํจํด์ ์ท์์ ์ฌ์ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ์ง๋ง ์ผ๋ถ ๊ฒฐ๊ณผ๋ ํฌ๊ณ ๋ณต์กํ ํจํด์์ ์ฝ๊ฐ์ ๊น๋ฐ์ ๋์์ ๋ณด์ธ๋ค.
๋ค๋ฅธ ๋ํจ์ ๋ชจ๋ธ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ํ์ธํ๋ ๋ฐ ์ถ๋ก ์๊ฐ์ด GAN ๋๋ VAE์ ๋นํด ๋๋ฆฌ๋ค.
ํน์ ํผ์ฌ์ฒด์ ๋ํ ๋ชจ๋ธ ํ์ธํ๋์ ํ๋ ์๋น 18์ด์ ๋ ๋๋ง ์๊ฐ ์ธ์ UNet์ ๊ฒฝ์ฐ ์ฝ 10๋ถ, VAE ๋์ฝ๋์ ๊ฒฝ์ฐ ์ฝ 20๋ถ์ด ์์๋๋ค.
8. Conclusion#
์คํธ ํจ์ ์ด๋ฏธ์ง ์ ๋๋ฉ์ด์ ์ ์ํ ์๋ก์ด ๋ํจ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ธ DreamPose๋ฅผ ์ ์ํ์๋ค.
ํ ์ฅ์ ์ด๋ฏธ์ง์ ํฌ์ฆ ์ํ์ค๊ฐ ์ฃผ์ด์ก์ ๋, ์ฌ์ , ํจํด, ์ฌ๋์ identity๋ฅผ ์ ๋๋ฉ์ด์ ํ๋ ์ฌ์ค์ ์ธ ์ฌ์ค์ ์ธ ํจ์ ๋์์์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ฆ๋ช ํ์๋ค.