Information

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion#

DreamPose_input_output

Fig. 634 DreamPose ์ž…์ถœ๋ ฅ#

1. Introduction#

  • DreamPose๊ฐ€ ์ œ์•ˆ๋œ ๋ฐฐ๊ฒฝ

    • ํŒจ์…˜ ์‚ฌ์ง„์€ ์˜จ๋ผ์ธ์— ๋„๋ฆฌ ํผ์ ธ ์žˆ์ง€๋งŒ, ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด๊ฐ€ ์ œํ•œ์ ์ด๋ฉฐ ์ž…์—ˆ์„ ๋•Œ ์˜ท์˜ ๋Š˜์–ด์ง„ ๋ชจ์–‘์ด๋‚˜ ํ๋ฆ„ ๋“ฑ ์˜ท์˜ ์ค‘์š”ํ•œ ๋‰˜์•™์Šค๋ฅผ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•œ๋‹ค.

    • ํŒจ์…˜ ๋™์˜์ƒ์€ ์ด๋Ÿฌํ•œ ๋ชจ๋“  ๋””ํ…Œ์ผ์„ ๋ณด์—ฌ์ฃผ๊ธฐ์— ์†Œ๋น„์ž์˜ ์˜์‚ฌ ๊ฒฐ์ •์— ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, ๋™์˜์ƒ์ด ์žˆ๋Š” ์ƒํ’ˆ์€ ๋งค์šฐ ๋“œ๋ฌผ๋‹ค.

  • DreamPose

    • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํฌ์ฆˆ ์‹œํ€€์Šค๋ฅผ ๋”ฐ๋ผ ํŒจ์…˜ ์‚ฌ์ง„์„ ์‚ฌ์‹ค์ ์ธ ์• ๋‹ˆ๋ฉ”์ด์…˜ ๋น„๋””์˜ค๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์ธ DreamPose๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค.

    • Stable diffusion์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค.

    • ํ•˜๋‚˜ ์ด์ƒ์˜ ์‚ฌ๋žŒ ์ด๋ฏธ์ง€์™€ ํฌ์ฆˆ ์‹œํ€€์Šค๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ํฌ์ฆˆ ์‹œํ€€์Šค๋ฅผ ๋”ฐ๋ผ ๊ณ ํ’ˆ์งˆ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

  • ๊ธฐ์กด ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์˜ ๋ฌธ์ œ์ 

    • ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋””ํ“จ์ „ ๋ชจ๋ธ์€ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ๋น„๋””์˜ค ์ƒ์„ฑ ๋””ํ“จ์ „ ๋ชจ๋ธ์€ ๋™์ผํ•œ ํ’ˆ์งˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์ง€ ๋ชปํ–ˆ์œผ๋ฉฐ, ํ…์Šค์ฒ˜ ์›€์ง์ž„์ด๋‚˜ ์นดํˆฐ๊ณผ ๊ฐ™์€ ๋ชจ์–‘์œผ๋กœ ์ œํ•œ๋œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

    • ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์ด ๋–จ์–ด์ง„๋‹ค.

    • ๋ชจ์…˜ jitter๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

    • ์‚ฌ์‹ค์„ฑ(realism)์ด ๋ถ€์กฑํ•˜๋‹ค.

    • ๋Œ€์ƒ ๋น„๋””์˜ค์˜ ์›€์ง์ž„์ด๋‚˜ ์„ธ๋ถ€์ ์ธ ๋ฌผ์ฒด ๋ชจ์–‘์„ ์ œ์–ดํ•  ์ˆ˜ ์—†๋‹ค.

      • ๊ธฐ์กด ๋ชจ๋ธ์ด ์ฃผ๋กœ ํ…์ŠคํŠธ์— ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—

  • DreamPose์˜ ์ ‘๊ทผ๋ฒ•

    • ์ด๋ฏธ์ง€ ๋ฐ ํฌ์ฆˆ ์‹œํ€€์Šค๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ fidelity์™€ ํ”„๋ ˆ์ž„ ๊ฐ„ ์ผ๊ด€์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.

    • ์ด๋ฏธ์ง€ ๋ถ„ํฌ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ธฐ์กด ์‚ฌ์ „ ํ•™์Šต๋œ ์ด๋ฏธ์ง€ ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ํŒŒ์ธ ํŠœ๋‹ํ•˜์˜€๋‹ค. โ†’ ์ด๋ฏธ์ง€ ์• ๋‹ˆ๋ฉ”์ด์…˜ ํƒœ์Šคํฌ๋ฅผ ์ปจ๋””์…”๋‹ ์‹ ํ˜ธ์™€ ์ผ์น˜ํ•˜๋Š” ์ด๋ฏธ์ง€์˜ ๋ถ€๋ถ„ ๊ณต๊ฐ„์„ ์ฐพ๋Š” ๊ฒƒ์œผ๋กœ ๋‹จ์ˆœํ™” ํ•  ์ˆ˜ ์žˆ๋‹ค.

    • ํ•ด๋‹น ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•ด ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „์˜ ์ธ์ฝ”๋”์™€ ์ปจ๋””์…”๋‹ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์žฌ์„ค๊ณ„ํ•˜์˜€๋‹ค.

    • 2-์Šคํ…Œ์ด์ง€ ํŒŒ์ธํŠœ๋‹ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค

      • UNet๊ณผ VAE๋ฅผ ํ•˜๋‚˜ ํ˜น์€ ์—ฌ๋Ÿฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ ํŒŒ์ธํŠœ๋‹

  • Contribution

    1. DreamPose: ํŒจ์…˜ ์ด๋ฏธ์ง€ ์• ๋‹ˆ๋ฉ”์ด์…˜์„ ์œ„ํ•ด ์ด๋ฏธ์ง€ ๋ฐ ํฌ์ฆˆ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ํ•˜๋Š” ๋””ํ“จ์ „ ๋ฐฉ์‹

    2. ํ”„๋ ˆ์ž„ ๊ฐ„ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ ์‹œํ‚ค๋Š” ๊ฐ„๋‹จํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์ธ ํฌ์ฆˆ ์ปจ๋””์…”๋‹ ๋ฐฉ์‹

    3. ์ปจ๋””์…”๋‹ ์ด๋ฏธ์ง€์˜ fidelity๋ฅผ ๋†’์—ฌ์ฃผ๋Š” split CLIP-VAE ์ธ์ฝ”๋”

    4. ์ด๋ฏธ์ง€์˜ fidelity์™€ ์ƒˆ๋กœ์šด ํฌ์ฆˆ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ํšจ๊ณผ์ ์œผ๋กœ ๋งž์ถ”๋Š” ํŒŒ์ธํŠœ๋‹ ์ „๋žต

3. Background#

  • ๋””ํ“จ์ „ ๋ชจ๋ธ

    • ๋””ํ“จ์ „ ๋ชจ๋ธ์€ ํ’ˆ์งˆ, ๋‹ค์–‘์„ฑ, ํ•™์Šต ์•ˆ์ •์„ฑ ์ธก๋ฉด์—์„œ ํ•ฉ์„ฑ ํƒœ์Šคํฌ์—์„œ GAN์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ์‹  ์ƒ์„ฑ ๋ชจ๋ธ์ด๋‹ค.

    • ํ‘œ์ค€ ์ด๋ฏธ์ง€ ๋””ํ“จ์ „ ๋ชจ๋ธ์€ ์ •๊ทœ ๋ถ„ํฌ๋œ ๋žœ๋ค ๋…ธ์ด์ฆˆ์—์„œ ์ด๋ฏธ์ง€๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ณต์›ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•œ๋‹ค.

  • Latent diffusion modelย (ex. Stable Diffusion)

    latent diffusion

    Fig. 635 Latent Diffusion Model#

  • ์˜คํ† ์ธ์ฝ”๋”์˜ ์ธ์ฝ”๋”ฉ๋œ latent space์—์„œ ์ž‘๋™ํ•˜๋ฏ€๋กœ ์ตœ์†Œํ•œ์˜ ํ’ˆ์งˆ์„ ํฌ์ƒํ•˜๋ฉด์„œ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์„ ์ ˆ์•ฝํ•œ๋‹ค.

  • ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „ ๋ชจ๋ธ์€ VAE์™€ ๋””๋…ธ์ด์ง• UNet์˜ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

    • VAE ์˜คํ† ์ธ์ฝ”๋”

      • ์ธ์ฝ”๋” \(\mathcal{E}\): ํ”„๋ ˆ์ž„ \(x\)๋ฅผ ์ปดํŒฉํŠธํ•œ latent ํ‘œํ˜„ \(z\)๋กœ ์ถ”์ถœ (\(z=\mathcal{E}\)\((x)\))

      • ๋””์ฝ”๋” \(\mathcal{D}\): latent ํ‘œํ˜„์—์„œ ์ด๋ฏธ์ง€๋ฅผ ๋ณต์› (\(xโ€™=\mathcal{D}(z)\))

    • ํ•™์Šตํ•˜๋Š” ๋™์•ˆ, latent feature \(z\)๋Š” ๊ฒฐ์ •๋ก ์  ๊ฐ€์šฐ์‹œ์•ˆ ํ”„๋กœ์„ธ์Šค์— ์˜ํ•ด ํƒ€์ž„ ์Šคํƒฌํ”„ \(T\)๋กœ ๋””ํ“จ์ฆˆ๋˜์–ด ๋…ธ์ด์ง€ feature์ธ \(\tilde{z}_T\)๋ฅผ ๋งŒ๋“ฆ

    • ์›๋ณธ ์ด๋ฏธ์ง€๋ฅผ ๋ณต๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ํƒ€์ž„์Šคํƒฌํ”„์— ํ•ด๋‹นํ•˜๋Š” latent feature์˜ ๋…ธ์ด์ฆˆ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋„๋ก ์‹œ๊ฐ„์œผ๋กœ ์ปจ๋””์…”๋‹๋œ UNet์ด ํ•™์Šต ๋œ๋‹ค.

    • UNet์˜ ๋ชฉ์  ํ•จ์ˆ˜

      \[ \begin{align}{\cal L}_{D M}=\mathbb{R}_{z,\epsilon\in{\mathcal{N}}(0,1)}[||\epsilon-\epsilon_{\theta}({\tilde{z}}_{t},t,c)]|_{2}^{2}]\end{align} \]
      • c: ์ปจ๋””์…”๋‹ ์ •๋ณด์˜ ์ž„๋ฒ ๋”ฉ (ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋งˆ์Šคํฌ๋“ฑ, ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „์—์„œ๋Š” CLIP ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋กœ๋ถ€ํ„ฐ ์–ป์–ด์ง

    • ์˜ˆ์ธก๋œ latentย \(zโ€™\)์€ ์˜ˆ์ธก๋œ ์ด๋ฏธ์ง€ \(xโ€™ = \mathcal{D}(z')\)๋ฅผ ๋ณต๊ตฌํ•˜๋„๋ก ๋””์ฝ”๋”ฉ ๋œ๋‹ค.

  • Classifier-free guidance

    • Implicit classifier๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก๋œ ๋…ธ์ด์ฆˆ ๋ถ„ํฌ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ์ฃผ์–ด์ง„ ๋ถ„ํฌ๋กœ ๋ฐ€์–ด๋ถ™์ด๋Š” ์ƒ˜ํ”Œ๋ง ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‹ค.

    • ์ด๋Š” ๋žœ๋คํ•œ ํ™•๋ฅ ๋กœ ์‹ค์ œ ์กฐ๊ฑด์œผ๋กœ ์ฃผ์–ด์ง„ ์ž…๋ ฅ์„ ๋„ ์ž…๋ ฅ(โˆ…)์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ํ›ˆ๋ จ ๋ฐฉ์‹์ธ ๋“œ๋กญ์•„์›ƒ์„ ํ†ตํ•ด ๋‹ฌ์„ฑ๋œ๋‹ค.

    • ์ธํผ๋Ÿฐ์Šคํ•˜๋Š” ๋™์•ˆ ์กฐ๊ฑด์œผ๋กœ ์ฃผ์–ด์ง„ ์˜ˆ์ธก์€ ์Šค์นผ๋ผ ๊ฐ€์ค‘์น˜ s๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ unconditionalํ•œ ์˜ˆ์ธก์„ ์กฐ๊ฑด๋ถ€๋กœ ๊ฐ€์ด๋“œํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

      \[ \begin{align}\epsilon_{\theta}=\epsilon_{\theta}(\tilde{z}_{t},t,\emptyset)+s\cdot(\epsilon_{\theta}(\tilde{z}_{t},t,\mathrm{c})-\epsilon_{\theta}(\tilde{z}_{t},t,\emptyset))\end{align} \]
      • \(\epsilon_{\theta}(\tilde{z}_{t},t,\emptyset)\): ์กฐ๊ฑด์ด ์—†๋Š” ๊ฒฝ์šฐ์— ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ

      • \(\epsilon_{\theta}(\tilde{z}_{t},t,c)\): ์กฐ๊ฑด์ด ์žˆ๋Š” ๊ฒฝ์šฐ์— ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ

      โ†’ ์กฐ๊ฑด์„ Null๋กœ ์คฌ์„ ๋•Œ์˜ ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ฐ’๊ณผ ์กฐ๊ฑด์„ ์คฌ์„ ๋•Œ์˜ ๋ชจ๋ธ์ด ์˜ˆ์ธก๊ฐ’์„ ๋ณด๊ฐ„ํ•œ๋‹ค.

4. Method#

  • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹จ์ผ ์ด๋ฏธ์ง€์™€ ํฌ์ฆˆ ์‹œํ€€์Šค๋กœ๋ถ€ํ„ฐ ์‚ฌ์‹ค์ ์ธ ์• ๋‹ˆ๋ฉ”์ด์…˜ ๋™์˜์ƒ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

  • ์ด๋ฅผ ์œ„ํ•ด ํŒจ์…˜ ๋™์˜์ƒ ์ปฌ๋ ‰์…˜์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „์„ ํŒจ์…˜ ๋™์˜์ƒ ์ปฌ๋ ‰์…˜์— ๋งž๊ฒŒ ํŒŒ์ธํŠœ๋‹ํ•œ๋‹ค.

  • ์ถ”๊ฐ€ ์ปจ๋””์…”๋‹ ์‹ ํ˜ธ(์ด๋ฏธ์ง€ ๋ฐ ํฌ์ฆˆ)๋ฅผ ๋ฐ›๊ณ  ๋™์˜์ƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋Š” ์‹œ๊ฐ„์ ์œผ๋กœ ์ผ๊ด€๋œ ์ฝ˜ํ…์ธ ๋ฅผ ์ถœ๋ ฅํ•˜๊ธฐ ์œ„ํ•ด ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „์˜ ๊ตฌ์กฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” ์ž‘์—…์ด ํฌํ•จ๋œ๋‹ค.

4.1. Overview#

  • ์ž…์ถœ๋ ฅ

    • ์ž…๋ ฅ: ์ž…๋ ฅ ์ด๋ฏธ์ง€ \(x_0\), ํฌ์ฆˆ \(\{p_1, โ€ฆ, p_n\}\)

    • ์ถœ๋ ฅ: ๋น„๋””์˜ค \(\{x'_1, โ€ฆ, xโ€™_N\}\) (\(xโ€™_i\): ์ž…๋ ฅ ํฌ์ฆˆ \(p_i\)์— ํ•ด๋‹นํ•˜๋Š” i ๋ฒˆ์งธ ์˜ˆ์ธก๋œ ํ”„๋ ˆ์ž„)

  • ์ž…๋ ฅ ์ด๋ฏธ์ง€์™€ ํฌ์ฆˆ ์‹œํ€€์Šค๋ฅผ ์กฐ๊ฑด์œผ๋กœ ํ•˜๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ latent diffusion model์„ ์‚ฌ์šฉํ•œ๋‹ค.

  • ์ถ”๋ก  ์‹œ์—๋Š” ์ผ๋ฐ˜์ ์ธ ๋””ํ“จ์ „ ์ƒ˜ํ”Œ๋ง ์ ˆ์ฐจ๋ฅผ ํ†ตํ•ด ๊ฐ ํ”„๋ ˆ์ž„์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ƒ์„ฑํ•œ๋‹ค.

    • ๊ท ์ผํ•˜๊ฒŒ ๋ถ„ํฌ๋œ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋กœ ์‹œ์ž‘ํ•˜์—ฌ ๋‘ ์กฐ๊ฑด ์‹ ํ˜ธ๋กœ ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ฟผ๋ฆฌํ•˜์—ฌ noisy latent์˜ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค.

  • ๋งˆ์ง€๋ง‰์œผ๋กœ ์˜ˆ์ธก๋œ ๋””๋…ธ์ด์ฆˆ๋œ latent \(zโ€™_i\)๋ฅผ ๋””์ฝ”๋”ฉํ•˜์—ฌ ์˜ˆ์ธก๋œ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„ \(xโ€™_i=\mathcal{D}(zโ€™_i)\)๋ฅผ ๋งŒ๋“ ๋‹ค.

4.2. Architecture#

  • ์ด๋ฏธ์ง€ ์• ๋‹ˆ๋ฉ”์ด์…˜์„ ์œ„ํ•ด ์›๋ž˜์˜ text-to-image ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ์ˆ˜์ •ํ•˜๊ณ  ํŒŒ์ธํŠœ๋‹ํ•œ๋‹ค. (์กฐ๊ฑด: ์ด๋ฏธ์ง€, ํฌ์ฆˆ)

  • ์ด๋ฏธ์ง€ ์• ๋‹ˆ๋ฉ”์ด์…˜์˜ ๋ชฉํ‘œ

    1. ์ œ๊ณต๋œ ์ž…๋ ฅ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์ถฉ์‹ค๋„

    2. ์‹œ๊ฐ์  ํ’ˆ์งˆ

    3. ์ƒ์„ฑ๋œ ํ”„๋ ˆ์ž„์˜ ์ „๋ฐ˜์ ์ธ ์‹œ๊ฐ„์ ์ธ ์•ˆ์ •์„ฑ

  • ์ด๋Ÿฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์•„๋ž˜์™€ ๊ฐ™์ด ๊ตฌ์„ฑํ•˜์˜€๋‹ค.

    DreamPose Architecture

    Fig. 636 DreamPose Architecture#

4.2.1 Split CLIP-VAE Encoder#

DreamPose Encoder

Fig. 637 DreamPose Encoder#

  • ํ•ด๋‹น ๋ชจ๋“ˆ-์ปจ๋””์…”๋‹ ์–ด๋Œ‘ํ„ฐ(custom conditioning adapter)์˜ ํ•„์š”์„ฑ

    • ์ด๋ฏธ์ง€๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋„ฃ๊ธฐ ์œ„ํ•œ ์ด์ „ ์—ฐ๊ตฌ (ex: InstructPix2Pix)๋Š” ์ฃผ๋กœ ์กฐ๊ฑด์œผ๋กœ ๋“ค์–ด์˜ค๋Š” ์ด๋ฏธ์ง€ ์‹ ํ˜ธ๋ฅผ ๋””๋…ธ์ด์ง• U-Net์— ๋Œ€ํ•œ ์ž…๋ ฅ ๋…ธ์ด์ฆˆ์™€ concatํ•œ๋‹ค.

    • ์ด๋Š” ์›ํ•˜๋Š” ์ถœ๋ ฅ ์ด๋ฏธ์ง€์™€ ๊ณต๊ฐ„์ ์œผ๋กœ(spatially) ์ •๋ ฌ๋œ ์กฐ๊ฑด ์‹ ํ˜ธ์— ๋Œ€ํ•œ ์กฐ๊ฑดํ™”์— ํšจ๊ณผ์ ์ด์ง€๋งŒ, DreamPose์˜ ๊ฒฝ์šฐ์—๋Š” ๋„คํŠธ์›Œํฌ๊ฐ€ ์ž…๋ ฅ ์ด๋ฏธ์ง€์™€ ๊ณต๊ฐ„์ ์œผ๋กœ ์ •๋ ฌ๋˜์ง€ ์•Š์€ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

    • ๋”ฐ๋ผ์„œ ํ•ด๋‹น ํƒœ์Šคํฌ์—๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๊ณ , ์ด๋ฅผ ์œ„ํ•ด ๋งž์ถคํ˜• ์ปจ๋””์…”๋‹ ์–ด๋Œ‘ํ„ฐ๋ฅผ ๊ตฌํ˜„ํ•˜์˜€๋‹ค.

    • ๋งž์ถคํ˜• ์ปจ๋””์…”๋‹ ์–ด๋Œ‘ํ„ฐ๋Š” CLIP ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ์กฐ๊ฑดํ™”๋ฅผ ๋Œ€์ฒดํ•˜๋Š” ๋งž์ถคํ˜• ์ปจ๋””์…”๋‹ ์–ด๋Œ‘ํ„ฐ(custom conditioning adapter)๋ฅผ ๊ตฌํ˜„ํ•˜์˜€๋‹ค.

    • ์ด ์–ด๋Œ‘ํ„ฐ๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ CLIP ์ด๋ฏธ์ง€ ๋ฐ VAE ์ธ์ฝ”๋”์—์„œ ์ธ์ฝ”๋”ฉ๋œ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•œ๋‹ค.

  • ๋””ํ“จ์ „ ๊ธฐ๋ฐ˜ ํŒŒ์ธํŠœ๋‹

    • ๋ชฉํ‘œ: ์ž…๋ ฅ ์‹ ํ˜ธ๋ฅผ ์›๋ž˜ ๋„คํŠธ์›Œํฌ ํ•™์Šต์— ์‚ฌ์šฉ๋œ ์‹ ํ˜ธ์™€ ์ตœ๋Œ€ํ•œ ์œ ์‚ฌํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ํ•™์Šต ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ฐ€๋Šฅํ•œ ํ•œ ์˜๋ฏธ ์žˆ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ โ†’ ํ•™์Šต๋œ prior ๊ฐ’์˜ ์†์‹ค์„ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.

    • ์ด๋Ÿฌํ•œ ์ด์œ ๋กœ ๋Œ€๋ถ€๋ถ„์˜ ๋””ํ“จ์ „ ๊ธฐ๋ฐ˜ ํŒŒ์ธํŠœ๋‹ ์ฒด๊ณ„๋Š” ๋ชจ๋“  ์›๋ž˜ ์ปจ๋””์…”๋‹ ์‹ ํ˜ธ๋ฅผ ์œ ์ง€ํ•˜๊ณ  ์ƒˆ๋กœ์šด ์ปจ๋””์…”๋‹ ์‹ ํ˜ธ์™€ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š” ๋„คํŠธ์›Œํฌ ๊ฐ€์ค‘์น˜๋ฅผ 0์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค.

  • VAE Encoder์˜ ํ•„์š”์„ฑ

    • ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „์ด ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์˜ CLIP ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์ปจ๋””์…”๋‹ ๋˜๊ณ  CLIP์ด ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ๊ณต์œ  ์ž„๋ฒ ๋”ฉ ์ŠคํŽ˜์ด์Šค(shared embedding space)๋กœ ์ธ์ฝ”๋”ฉํ•œ๋‹ค๋Š” ์ ์„ ๊ฐ์•ˆํ•  ๋•Œ CLIP ์ปจ๋””์…”๋‹์„ ์กฐ๊ฑด์œผ๋กœ ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€์—์„œ ํŒŒ์ƒ๋œ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๊ฐ„๋‹จํžˆ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ์ด ์ž์—ฐ์Šค๋Ÿฌ์›Œ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค.

    • ํ•˜์ง€๋งŒ ์‹ค์ œ๋กœ๋Š” CLIP ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ๋งŒ์œผ๋กœ๋Š” ์กฐ๊ฑด์œผ๋กœ ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€์—์„œ ์„ธ๋ฐ€ํ•œ ๋””ํ…Œ์ผ์„ ์บก์ฒ˜ํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค.

    • ๋”ฐ๋ผ์„œ ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „์˜ VAE์—์„œ ์ธ์ฝ”๋”ฉ๋œ latent ์ž„๋ฒ ๋”ฉ์„ ์ถ”๊ฐ€๋กœ ์ž…๋ ฅํ•œ๋‹ค.

    • ์ด๋ฅผ ํ†ตํ•ด ๋””ํ“จ์ „์˜ ์ถœ๋ ฅ ๋„๋ฉ”์ธ๊ณผ ์ผ์น˜ํ•˜๋Š” ์ถ”๊ฐ€์ ์ธ ์žฅ์ ์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค.

  • ์–ด๋Œ‘ํ„ฐ \(\mathcal{A}\)

    • ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์ปจ๋””์…”๋‹ ์‹ ํ˜ธ๋กœ VAE latent๋ฅผ ์ง€์›ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์–ด๋Œ‘ํ„ฐ ๋ชจ๋“ˆ \(\mathcal{A}\)๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค.

    • ํ•ด๋‹น ์–ด๋Œ‘ํ„ฐ๋Š” CLIP๊ณผ VAE ์ž„๋ฒ ๋”ฉ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋„คํŠธ์›Œํฌ์˜ ์ผ๋ฐ˜์ ์ธ cross-attention ์—ฐ์‚ฐ์— ์‚ฌ์šฉ๋˜๋Š” ํ•˜๋‚˜์˜ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•œ๋‹ค.

    • ์ด ์–ด๋Œ‘ํ„ฐ๋Š” ๋‘ ์‹ ํ˜ธ๋ฅผ ํ•จ๊ป˜ ํ˜ผํ•ฉํ•˜๊ณ  ๋””๋…ธ์ด์ง• U-Net์˜ cross-attention ๋ชจ๋“ˆ์—์„œ ์˜ˆ์ƒํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ๋ชจ์–‘์œผ๋กœ ์ถœ๋ ฅ์„ ๋ณ€ํ™˜ํ•œ๋‹ค.

  • ๋””ํ“จ์ „ ๊ธฐ๋ฐ˜ ํŒŒ์ธํŠœ๋‹์—์„œ ์–ธ๊ธ‰ํ–ˆ ๋“ฏ์ด ํ•™์Šต์—์„œ ๋„คํŠธ์›Œํฌ์˜ ์ถฉ๊ฒฉ์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์ฒ˜์Œ์—๋Š” VAE ์ž„๋ฒ ๋”ฉ์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ€์ค‘์น˜๋Š” 0์œผ๋กœ ์„ค์ •๋˜์–ด ๋„คํŠธ์›Œํฌ๊ฐ€ CLIP ์ž„๋ฒ ๋”ฉ์œผ๋กœ๋งŒ ํ•™์Šต์„ ์‹œ์ž‘ํ•œ๋‹ค.

  • ์ตœ์ข… ์ด๋ฏธ์ง€ ์ปจ๋””์…”๋‹ ์‹ ํ˜ธย \(c_I\)๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

\[ \begin{align}c_{I}={\mathcal{A}}(c_{\mathrm{CLIP}},c_{\mathrm{VAE}})\end{align} \]

4.2.2 Modified UNet#

Modified UNet

Fig. 638 Modified UNet#

  • ์ด๋ฏธ์ง€ ์ปจ๋””์…”๋‹๊ณผ ๋‹ฌ๋ฆฌ ํฌ์ฆˆ ์ปจ๋””์…”๋‹์€ ์ด๋ฏธ์ง€์™€ ์ •๋ ฌ ๋œ๋‹ค.

  • Noisy latent \(\tilde{z}_i\)๋ฅผ ํƒ€๊ฒŸ ํฌ์ฆˆ ํ‘œํ˜„ \(c_p\)์™€ concatํ•œ๋‹ค.

  • ์‹ค์ œ ๋น„๋””์˜ค์—์„œ ์ถ”์ •๋œ ํฌ์ฆˆ์˜ ๋…ธ์ด์ฆˆ๋ฅผ ๊ณ ๋ คํ•˜๊ณ  ์ƒ์„ฑ๋œ ํ”„๋ ˆ์ž„์—์„œ์˜ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด, \(c_p\)๋ฅผ ๋‹ค์„ฏ ๊ฐœ์˜ ์—ฐ์†๋œ ํฌ์ฆˆ ํ”„๋ ˆ์ž„์œผ๋กœ ๊ตฌ์„ฑํ•˜์˜€๋‹ค. ์ฆ‰, \(c_p = \{p_{i-2}, p_{i-1}, pi, p_{i+1}, p_{i+2}\}\) โ†’ ๊ฐœ๋ณ„ ํฌ์ฆˆ๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์—ฐ์† ํฌ์ฆˆ๋กœ ํ•™์Šตํ•˜๋ฉด ์ „๋ฐ˜์ ์ธ ์›€์ง์ž„์˜ ๋ถ€๋“œ๋Ÿฌ์›€๊ณผ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์ด ์ฆ๊ฐ€ํ•œ๋‹ค.

  • ๊ตฌ์กฐ์ ์œผ๋กœ 0์œผ๋กœ ์ดˆ๊ธฐํ™”๋œ 10๊ฐœ์˜ ์ถ”๊ฐ€ ์ž…๋ ฅ ์ฑ„๋„์„ ๋ฐ›์•„๋“ค์ด๋„๋ก UNet ์ž…๋ ฅ ๋ ˆ์ด์–ด๋ฅผ ์ˆ˜์ •ํ•˜๊ณ  noisy latent์— ํ•ด๋‹นํ•˜๋Š” ์›๋ž˜ ์ฑ„๋„์€ ์‚ฌ์ „ ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜์—์„œ ์ˆ˜์ •๋˜์ง€ ์•Š๋Š”๋‹ค.

4.2.3 Finetuning#

  • ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ๋Œ€๋ถ€๋ถ„์˜ ๋ ˆ์ด์–ด weight๋Š” ๋ฏธ๋ฆฌ ํ•™์Šต๋œ text-to-image ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „ ์ฒดํฌํฌ์ธํŠธ๋กœ ์ดˆ๊ธฐํ™”๋œ๋‹ค.

  • ์ด ๋•Œ, CLIP ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋Š” ๋ณ„๋„์˜ ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ์ฒดํฌํฌ์ธํŠธ์—์„œ ๋กœ๋“œ๋œ๋‹ค.

  • ์ƒˆ๋กœ์šด ๋ ˆ์ด์–ด๋Š” ์ดˆ๊ธฐ์— ์ƒˆ๋กœ์šด ์ปจ๋””์…”๋‹ ์‹ ํ˜ธ๊ฐ€ ๋„คํŠธ์›Œํฌ ์ถœ๋ ฅ์— ๊ธฐ์—ฌํ•˜์ง€ ์•Š๋„๋ก ์ดˆ๊ธฐํ™” ๋œ๋‹ค.

  • ์ดˆ๊ธฐํ™” ํ›„ DreamPose๋Š” ์•„๋ž˜์˜ ๋‘ ๋‹จ๊ณ„๋กœ ํŒŒ์ธํŠœ๋‹๋œ๋‹ค.

    Two-phase finetuning

    Fig. 639 Two-phase Finetuning#

    1. Full Dataset Finetuning

      • ์ „์ฒด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ UNet๊ณผ ์–ด๋Œ‘ํ„ฐ ๋ชจ๋“ˆ์„ ํŒŒ์ธ ํŠœ๋‹ํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ๋ฐ ํฌ์ฆˆ์™€ ์ผ์น˜ํ•˜๋Š” ํ”„๋ ˆ์ž„์„ ํ•ฉ์„ฑํ•œ๋‹ค.

    2. Subset-Specific Finetuning

      • ํ•˜๋‚˜ ์ด์ƒ์˜ ํ”ผ์‚ฌ์ฒด๋ณ„ ์ž…๋ ฅ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด UNet๊ณผ ์–ด๋Œ‘ํ„ฐ ๋ชจ๋“ˆ์„ ํŒŒ์ธํŠœ๋‹ํ•œ ๋‹ค์Œ VAE ๋””์ฝ”๋”๋ฅผ ํ†ตํ•ด ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜์—ฌ ์ถ”๋ก ์— ์‚ฌ์šฉ๋˜๋Š” ํ”ผ์‚ฌ์ฒด๋ณ„ ๋งž์ถคํ˜• ๋ชจ๋ธ์„ ์ƒ์„ฑํ•œ๋‹ค.

  • ๋‹ค๋ฅธ ์ด๋ฏธ์ง€ ์กฐ๊ฑด๋ถ€ ๋””ํ“จ์ „ ๋ฐฉ๋ฒ•๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ์‚ฌ๋žŒ๊ณผ ์˜์ƒ์˜ identity๋ฅผ ๋ณด์กดํ•˜๊ณ  ํ”„๋ ˆ์ž„ ๊ฐ„์— ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ ค๋ฉด ์ƒ˜ํ”Œ๋ณ„ ํŒŒ์ธํŠœ๋‹์ด ํ•„์ˆ˜์ ์ด์—ˆ๋‹ค.

  • ๊ทธ๋Ÿฌ๋‚˜ ๋‹จ์ˆœํžˆ ๋‹จ์ผ ํ”„๋ ˆ์ž„๊ณผ ํฌ์ฆˆ ์Œ์— ๋Œ€ํ•ด ํ›ˆ๋ จํ•˜๋ฉด ํ…์Šค์ฒ˜ ๊ณ ์ฐฉ(texture-sticking)๊ณผ ๊ฐ™์€ ์•„ํ‹ฐํŒฉํŠธ๊ฐ€ ์ถœ๋ ฅ ๋น„๋””์˜ค์— ๋ฐœ์ƒํ•œ๋‹ค.

  • ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๋‹จ๊ณ„์—์„œ ๋žœ๋ค ํฌ๋กญ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๋“ฑ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์ด๋ฏธ์ง€-ํฌ์ฆˆ์Œ์„ ์ฆ๊ฐ•ํ•œ๋‹ค.

  • VAE ๋””์ฝ”๋”๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์ด ๋” ์„ ๋ช…ํ•˜๊ณ  ์‚ฌ์‹ค์ ์ธ ๋””ํ…Œ์ผ์„ ๋ณต๊ตฌํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•˜๋‹ค.

    Importance of VAE finetuning

    Fig. 640 VAE ํŒŒ์ธํŠœ๋‹์˜ ์ค‘์š”์„ฑ#

4.4. Pose and Image Classifier-Free Guidance#

  • ์ถ”๋ก ์‹œ ๋‹จ์ผ ์ž…๋ ฅ ์ด๋ฏธ์ง€์™€ ํ”ผ์‚ฌ์ฒด๋ณ„ ๋ชจ๋ธ(subject-specific model)์„ ์‚ฌ์šฉํ•˜๋Š” ์ผ๋ จ์˜ ํฌ์ฆˆ์—์„œ ํ”„๋ ˆ์ž„๋ณ„๋กœ ๋™์˜์ƒ์„ ์ƒ์„ฑํ•œ๋‹ค.

  • ์ด์ค‘(dual) classifier-free guidance๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”๋ก  ์‹œ์— ์ด๋ฏธ์ง€ ์ปจ๋””์…”๋‹ \(c_I\)์™€ ํฌ์ฆˆ ์ปจ๋””์…”๋‹ \(c_p\)์˜ ๊ฐ•๋„๋ฅผ ์กฐ์ ˆํ•œ๋‹ค.

  • ์ด์ค‘ classfier-free guidance๋Š” ์‹ (3)์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ˆ˜์ •๋œ๋‹ค.

    \[\begin{split} \begin{align*} {\epsilon_{\theta}(z_{t},c_{I},c_{p})} & {= \epsilon_{\theta}(z_{t},\emptyset,\emptyset)} \\ {} & {+\, s_{I}(\epsilon_{\theta}(z_{t},c_{I},\mathcal{\emptyset})-\epsilon_{\theta}(z_{t},\emptyset,\emptyset))} \\ {} & {+\, s_{p}(\epsilon_{\theta}(z_{t},\mathcal{c}_{I},\mathcal{c}_p)-\epsilon_{\theta}(z_{t},\mathcal{c}_{I},\emptyset))} \end{align*} \end{split}\]
    • \(s_I\), \(s_p\): ๊ฐ€์ด๋˜์Šค ์›จ์ดํŠธ

    • \(c_I\): ์ด๋ฏธ์ง€ ์ปจ๋””์…”๋‹

    • \(c_p\): ํฌ์ฆˆ ์ปจ๋””์…”๋‹

    โ†’ ์ด๋ฏธ์ง€ ์ปจ๋””์…”๋‹์ด ์žˆ๋Š” ๊ฒฝ์šฐ์™€ ์—†๋Š” ๊ฒฝ์šฐ์˜ ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ํฌ์ฆˆ ์ปจ๋””์…”๋‹์ด ์žˆ๋Š” ๊ฒฝ์šฐ์™€ ์—†๋Š” ๊ฒฝ์šฐ์˜ ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•ด์„œ ์ด๋ฅผ ๊ฐ€์ด๋˜์Šค ์›จ์ดํŠธ๋ฅผ ํ†ตํ•ด ๊ฐ•๋„๋ฅผ ์กฐ์ •ํ•ด์„œ ๋ฐ˜์˜

  • \(s_I\)๊ฐ€ ํฌ๋ฉด ์ž…๋ ฅ ์ด๋ฏธ์ง€์— ๋†’์€ ์™ธ๊ด€ ์ถฉ์‹ค๋„๋ฅผ ๋ณด์žฅํ•˜๊ณ , \(s_p\)๊ฐ€ ํฌ๋ฉด ์ž…๋ ฅ ํฌ์ฆˆ์— ๋Œ€ํ•œ ์ •๋ ฌ์„ ๋ณด์žฅํ•œ๋‹ค.

  • ์ด์ค‘ classifier-free guidance๋Š” ํฌ์ฆˆ ๋ฐ ์ด๋ฏธ์ง€ ๊ฐ€์ด๋“œ๋ฅผ ๊ฐ•ํ™”ํ•˜๋Š” ๊ฒƒ ์—์™ธ๋„, ํ”ผ์‚ฌ์ฒด๋ณ„ ๋ชจ๋ธ ํŒŒ์ธํŠœ๋‹ ํ›„ ํ•˜๋‚˜์˜ ์ž…๋ ฅ ํฌ์ฆˆ์— ๋Œ€ํ•œ ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ฐฉ์ง€ํ•œ๋‹ค.

5. Experiments#

5.1. Implementation Details#

  • ์ž…๋ ฅ ์ด๋ฏธ์ง€ resolution: 512x512

  • GPU: NVIDIA A100 2๊ฐœ

  • ์ฒซ ๋ฒˆ์งธ ํ›ˆ๋ จ ๋‹จ๊ณ„

    • ์ „์ฒด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ

    • 5 epoch

    • 5e-6 learning rate

    • ๋ฐฐ์น˜์‚ฌ์ด์ฆˆ: 16 (4 gradient accumulation step)

    • Dropout: ํฌ์ฆˆ ์ž…๋ ฅ 5%, ์ด๋ฏธ์ง€ ์ž…๋ ฅ 5%

  • ๋‘ ๋ฒˆ์งธ ํ›ˆ๋ จ ๋‹จ๊ณ„

    • ํŠน์ • ์ƒ˜ํ”Œ ํ”„๋ ˆ์ž„ ์‚ฌ์šฉ

    • 500 step

    • 1e-5 learning rate

    • Dropout ์ ์šฉ X

  • VAE ๋””์ฝ”๋” ํŒŒ์ธํŠœ๋‹

    • 1500 step

    • 5e-5 learning rate

  • ์ถ”๋ก  ์‹œ์—๋Š” PNDM ์ƒ˜ํ”Œ๋Ÿฌ ์‚ฌ์šฉ (100step)

5.2. Dataset#

  • UBC Fashion ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ

  • Split

    • Train: 339๊ฐœ์˜ ์˜์ƒ

    • Test: 100๊ฐœ์˜ ์˜์ƒ

  • ๊ฐ ๋น„๋””์˜ค์˜ ํ”„๋ ˆ์ž„ ์†๋„๋Š” ์ดˆ๋‹น 30ํ”„๋ ˆ์ž„์ด๋ฉฐ ๊ธธ์ด๋Š” ์•ฝ 12์ดˆ

  • ํ•™์Šต ์ค‘์—๋Š” ํ•™์Šต ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ๋žœ๋ค์œผ๋กœ ํ”„๋ ˆ์ž„ ์Œ์„ ์ƒ˜ํ”Œ๋ง ํ•˜์˜€๋‹ค.

  • DensePose๋ฅผ ์ด์šฉํ•ด์„œ ํฌ์ฆˆ๋ฅผ ๊ณ„์‚ฐํ•˜์˜€๋‹ค.

6. Results#

6.1. Comparisons#

  • ๊ณต๊ฐœ์ ์œผ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋‘ ๊ฐ€์ง€ ์ตœ์‹  ๋น„๋””์˜ค ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•์ธ MRAA(Motion Representations for Articulated Animation)๊ณผ Thin-Plate Spline Mothion Model(TPSMM)๊ณผ ์ˆ˜์น˜์  ๋ฐ ์ •์„ฑ์ ์ธ ๋น„๊ต๋ฅผ ํ•˜์˜€๋‹ค.

  • ์ œ๊ณต๋œ ํ›ˆ๋ จ ์Šคํฌ๋ฆฝํŠธ์™€ ๊ถŒ์žฅ ์—ํญ ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์„ UBC ํŒจ์…˜ ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•ด์„œ ์Šคํฌ๋ž˜์น˜๋ถ€ํ„ฐ ํ•™์Šตํ•˜์˜€๋‹ค.

  • ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด์„œ๋Š” AVD ๋ชจ๋“œ์—์„œ ์ œ๊ณต๋œ ํ…Œ์ŠคํŠธ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

  • PIDM๊ณผ๋„ ์ •์„ฑ์ ์ธ ๋น„๊ต๋ฅผ ํ•˜์˜€๋‹ค. PIDM์˜ ๊ฒฝ์šฐ ํ›ˆ๋ จ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†์–ด์„œ DeepFashion ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ํ•™์Šต๋œ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํ†ตํ•ด ๋น„๊ตํ•˜์˜€๋‹ค.

  • 100๊ฐœ์˜ ๋””๋…ธ์ด์ง• ์Šคํ…์„ ์‚ฌ์šฉํ•˜์—ฌ PIDM๊ณผ DreamPose๋ฅผ ์‹คํ–‰ํ•˜์˜€๋‹ค.

6.1.1 Quantitative Analysis#

result 1

Fig. 641 ์ •๋Ÿ‰์  ์„ฑ๋Šฅ ๋น„๊ต#

  • 256 ํ”ฝ์…€ ํ•ด์ƒ๋„์˜ 100๊ฐœ์˜ ๊ณ ์œ ํ•œ ํŒจ์…˜ ๋™์˜์ƒ์œผ๋กœ ๊ตฌ์„ฑ๋œ UBC ํŒจ์…˜ ํ…Œ์ŠคํŠธ ์…‹์— ๋Œ€ํ•ด ๋ชจ๋“  ๋ชจ๋ธ์„ ํ…Œ์ŠคํŠธ ํ•˜์˜€๋‹ค.

  • ๊ฐ ๋™์˜์ƒ์— ๋Œ€ํ•ด ์ž…๋ ฅ ํ”„๋ ˆ์ž„์—์„œ ์ตœ์†Œ 50ํ”„๋ ˆ์ž„ ์ด์ƒ ๋–จ์–ด์ ธ ์žˆ๋Š” 50๊ฐœ์˜ ํ”„๋ ˆ์ž„์„ ์ถ”์ถœํ•˜์—ฌ ํ…Œ์ŠคํŠธํ•˜์˜€๋‹ค.

  • MRAA์™€ TPSMM์€ ๋ชจ๋‘ driving video์—์„œ ์ถ”์ถœ๋œ feautre์— ์˜์กดํ•˜๋Š” ๋ฐ˜๋ฉด, DreamPose๋Š” UV-ํฌ์ฆˆ ์‹œํ€€์Šค์—๋งŒ ์˜์กดํ•œ๋‹ค๋Š” ์ ์— ์œ ์˜ํ•˜๋ผ.

  • ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  DreamPose ๋ชจ๋ธ์€ ๋„ค ๊ฐ€์ง€ ์ •๋Ÿ‰์  ์ง€ํ‘œ ๋ชจ๋‘์—์„œ ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•๋ณด๋‹ค ์ •๋Ÿ‰์ ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.

6.2.2 Qualitative Analysis#

result 2

Fig. 642 ์ •์„ฑ์  ์„ฑ๋Šฅ ๋น„๊ต#

  • MRAA์™€ TPSMM์€ ์ƒˆ๋กœ์šด ํฌ์ฆˆ๋ฅผ ์ทจํ•  ๋•Œ ์ธ๋ฌผ์˜ identity, ์˜ท๊ฐ ์ฃผ๋ฆ„, ๋ฏธ์„ธํ•œ ํŒจํ„ด์ด ์†์‹ค๋˜๋Š” ๋ฐ˜๋ฉด DreamPose๋Š” ๋””ํ…Œ์ผ์„ ์ •ํ™•ํ•˜๊ฒŒ ์œ ์ง€ํ•œ๋‹ค.

  • ํฌ์ฆˆ๋ฅผ ํฌ๊ฒŒ ๋ณ€๊ฒฝํ•˜๋Š” ๋™์•ˆ MRAA๋Š” ํŒ” ๋‹ค๋ฆฌ๊ฐ€ ๋ถ„๋ฆฌ ๋  ์ˆ˜ ์žˆ๋‹ค.

  • PIDM๊ณผ์˜ ๋น„๊ต

    result 3

    Fig. 643 PIDM๊ณผ์˜ ๋น„๊ต#

    • DreamPose๋Š” ์–ผ๊ตด์˜ identity์™€ ์˜์ƒ ํŒจํ„ด ๋ชจ๋‘ ๋” ์ถฉ์‹ค๋„ ๋†’์€ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

    • PIDM์€ ์‚ฌ์‹ค์ ์ธ ์–ผ๊ตด์„ ํ•ฉ์„ฑํ•˜์ง€๋งŒ, ์›๋ณธ ์ธ๋ฌผ์˜ identity์™€ ์ผ์น˜ํ•˜์ง€ ์•Š๊ณ , identity์™€ ์˜ท์ฐจ๋ฆผ์ด ํ”„๋ ˆ์ž„๋งˆ๋‹ค ๋‹ฌ๋ž๋‹ค. โ†’ PIDM์ด ๋น„๋””์˜ค ํ•ฉ์„ฑ์—์„œ๋Š” ์ž˜ ๋™์ž‘ํ•˜์ง€ ์•Š๋Š”๋‹ค.

6.2. Ablation Studies#

  • ์•„๋ž˜ ๋„ค ๊ฐ€์ง€ ๋ณ€ํ˜•์— ๋Œ€ํ•ด ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ๋‹ค.

    1. \(\text{Ours}_{\text{CLIP}}\): ๋“€์–ผ CLIP-VAE ์ธ์ฝ”๋” ๋Œ€์‹ ์— ์‚ฌ์ „ ํ•™์Šต๋œ CLIP ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉ โ†’ CLIP-VAE ์ธ์ฝ”๋” ํšจ๊ณผ ํ…Œ์ŠคํŠธ

    2. \(\text{Ours}_{\text{NO-VAE-FT}}\): VAE ๋””์ฝ”๋”๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜์ง€ ์•Š์€ ๋ฒ„์ „ โ†’ ๋””์ฝ”๋” ํŒŒ์ธํŠœ๋‹ ํšจ๊ณผ ํ…Œ์ŠคํŠธ

    3. \(\text{Ours}_{\text{1-pose}}\): 5๊ฐœ์˜ ์—ฐ๊ฒฐ๋œ ์—ฐ์† ํฌ์ฆˆ ๋Œ€์‹  ํ•˜๋‚˜์˜ ๋Œ€์ƒ ํฌ์ฆˆ๋งŒ ๋…ธ์ด์ฆˆ์— ์—ฐ๊ฒฐํ•œ ๋ฒ„์ „ โ†’ ์—ฐ๊ฒฐ๋œ 5๊ฐœ์˜ ํ”„๋ ˆ์ž„ ํšจ๊ณผ ํ…Œ์ŠคํŠธ

    4. \(\text{Ours}_{\text{Full}}\): ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ ๋ชจ๋“  ๋ฐฉ๋ฒ•์ด ๋‹ค ์ ์šฉ๋œ DreamPose

Quantitative Comparison

result 4

Fig. 644 Ablation Studies - ์ •๋Ÿ‰์  ๋น„๊ต#

Qualitative Comparison

result 5

Fig. 645 Ablation Studies - ์ •์„ฑ์  ๋น„๊ต#

  • ๊ธฐ์กด์˜ ์Šคํ…Œ์ด๋ธ” ๋””ํ“จ์ „์—์„œ๋Š” ์ธ๋ฌผ์˜ identity์— ๋Œ€ํ•œ ๋””ํ…Œ์ผ์„ ๋ณด์กดํ•  ์ˆ˜ ์—†์—ˆ๋‹ค.

  • ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ CLIP ์ธ์ฝ”๋”๋กœ ๊ต์ฒดํ•œ ๊ฒฐ๊ณผ ๋Œ€๋ถ€๋ถ„์˜ ์ด๋ฏธ์ง€ ๋””ํ…Œ์ผ์€ ์บก์ฒ˜ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์™ธํ˜•์— ๋Œ€ํ•œ ์ •๋ณด ์†์‹ค์ด ๋ฐœ์ƒํ•œ๋‹ค.

  • VAE ๋””์ฝ”๋”๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜๋ฉด ๋””ํ…Œ์ผ์˜ ์„ ๋ช…๋„๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜๊ณ  ์ž…๋ ฅ ํฌ์ฆˆ์— ๋Œ€ํ•œ ์˜ค๋ฒ„ํ”ผํŒ…์ด ๋ฐœ์ƒํ•˜์ง€ ์•Š๋Š”๋‹ค.

  • ํ•œ ๊ฐ€์ง€ ํฌ์ฆˆ๋งŒ ์ž…๋ ฅํ•˜๋ฉด ํŒ”๊ณผ ๋จธ๋ฆฌ์นด๋ฝ ์ฃผ๋ณ€์—์„œ์˜ ํ”ผ์‚ฌ์ฒด์˜ ํ˜•ํƒœ๊ฐ€ ๋ˆˆ์— ๋„๊ฒŒ ๊นœ๋ฐ•์ด๋Š” ํ˜„์ƒ์ด ๋‚˜ํƒ€๋‚ฌ๋‹ค.

6.3. Multiple Input Images#

  • DreamPose๋Š” ํ”ผ์‚ฌ์ฒด์— ๋Œ€ํ•œ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์—ฌ๋Ÿฌ ์žฅ ๋„ฃ์–ด์„œ ํŒŒ์ธํŠœ๋‹ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ํ”ผ์‚ฌ์ฒด์˜ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด ํ’ˆ์งˆ๊ณผ ์‹œ์ ์˜ ์ผ๊ด€์„ฑ์ด ํ–ฅ์ƒ๋œ๋‹ค.

    result 6

    Fig. 646 Multiple Input Images ๊ฒฐ๊ณผ#

7. Limitations & Future Work#

  • ์‹คํŒจ ์‚ฌ๋ก€

    result 7

    Fig. 647 ์‹คํŒจ ์‚ฌ๋ก€ ์˜ˆ์‹œ#

    • ๋“œ๋ฌธ ๊ฒฝ์šฐ์ง€๋งŒ ํŒ”๋‹ค๋ฆฌ๊ฐ€ ์˜ท ์†์œผ๋กœ ์‚ฌ๋ผ์ง€๊ณ (์™ผ์ชฝ), hallucinate feature๊ฐ€ ๋ณด์ด๊ณ (์ค‘๊ฐ„)์™€ ๋Œ€์ƒ ํฌ์ฆˆ๊ฐ€ ๋’ค๋ฅผ ํ–ฅํ•  ๋•Œ ๋ฐฉํ–ฅ์ด ์ž˜๋ชป ์ •๋ ฌ ๋˜๋Š” ๊ฒฝ์šฐ(์˜ค๋ฅธ์ชฝ)๊ฐ€ ๊ด€์ฐฐ๋œ๋‹ค.

  • ๋˜ํ•œ ๋‹จ์ˆœํ•œ ํŒจํ„ด์˜ ์˜ท์—์„œ ์‚ฌ์‹ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•˜์ง€๋งŒ ์ผ๋ถ€ ๊ฒฐ๊ณผ๋Š” ํฌ๊ณ  ๋ณต์žกํ•œ ํŒจํ„ด์—์„œ ์•ฝ๊ฐ„์˜ ๊นœ๋ฐ•์ž„ ๋™์ž‘์„ ๋ณด์ธ๋‹ค.

  • ๋‹ค๋ฅธ ๋””ํ“จ์ „ ๋ชจ๋ธ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํŒŒ์ธํŠœ๋‹ ๋ฐ ์ถ”๋ก  ์‹œ๊ฐ„์ด GAN ๋˜๋Š” VAE์— ๋น„ํ•ด ๋Š๋ฆฌ๋‹ค.

    • ํŠน์ • ํ”ผ์‚ฌ์ฒด์— ๋Œ€ํ•œ ๋ชจ๋ธ ํŒŒ์ธํŠœ๋‹์€ ํ”„๋ ˆ์ž„๋‹น 18์ดˆ์˜ ๋ Œ๋”๋ง ์‹œ๊ฐ„ ์™ธ์˜ UNet์˜ ๊ฒฝ์šฐ ์•ฝ 10๋ถ„, VAE ๋””์ฝ”๋”์˜ ๊ฒฝ์šฐ ์•ฝ 20๋ถ„์ด ์†Œ์š”๋œ๋‹ค.

8. Conclusion#

  • ์Šคํ‹ธ ํŒจ์…˜ ์ด๋ฏธ์ง€ ์• ๋‹ˆ๋ฉ”์ด์…˜์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋””ํ“จ์ „ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ธ DreamPose๋ฅผ ์ œ์•ˆํ•˜์˜€๋‹ค.

  • ํ•œ ์žฅ์˜ ์ด๋ฏธ์ง€์™€ ํฌ์ฆˆ ์‹œํ€€์Šค๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์„ฌ์œ , ํŒจํ„ด, ์‚ฌ๋žŒ์˜ identity๋ฅผ ์• ๋‹ˆ๋ฉ”์ด์…˜ ํ•˜๋Š” ์‚ฌ์‹ค์ ์ธ ์‚ฌ์‹ค์ ์ธ ํŒจ์…˜ ๋™์˜์ƒ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฆ๋ช…ํ•˜์˜€๋‹ค.