Dream Booth 3D#
Information
Title: DreamBooth3D: Subject-Driven Text-to-3D Generation
Reference
Project Page : https://dreambooth3d.github.io/
Author: Jeongin Lee
Last updated on {Sep. 3, 2024}
0. Abstract#
DreamBooth3D : ํผ์ฌ์ฒด์ 3-6๊ฐ์ ์บ์ฃผ์ผํ ์ดฌ์ ์ด๋ฏธ์ง๋ก๋ถํฐ text-to-3D ์์ฑ ๋ชจ๋ธ์ personalization (๋ง์ถคํ)
DreamBooth + DreamFusion ์ ๊ฒฐํฉ
DreamBooth : personalizing text-to-image models
DreamFusion : text-to-3D generation
๋ ๋ฐฉ๋ฒ๋ก ์ ๋์ด๋ธํ๊ฒ ๊ฒฐํฉ์ subject์ input viewpoints ์ ๋ํด ์ค๋ฒํผํ ํ๋ ๊ฐ์ธํ๋ t2i ๋ชจ๋ธ๋ก ์ธํด Subject ์ ๋ํด ๋ง์กฑ์ค๋ฝ์ง ๋ชปํ 3D ๊ฒฐ๊ณผ๋ฌผ ์์ฑ
t2i ๋ชจ๋ธ์ ๊ฐ์ธํ ๊ธฐ๋ฅ๊ณผ ํจ๊ป NERF์ 3D ์ผ๊ด์ฑ์ ๊ณต๋์ผ๋ก ํ์ฉํ๋ 3๋จ๊ณ ์ต์ ํ ์ ๋ต (3-stage optimization strategy)์ ํตํด ์ด๋ฅผ ๊ทน๋ณต
Subject ์ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๋ณผ ์ ์๋ ์๋ก์ด ํฌ์ฆ, ์์ ๋ฑ ์ ๋ํด ํ ์คํธ ์ค์ฌ ์์ ์ ํตํด ๊ณ ํ์ง์ subject ์ค์ฌ์ 3D ๊ฒฐ๊ณผ๋ฌผ ์์ฑ ๊ฐ๋ฅ
1. Introduction#
๋์
3D asset์์ฑ์ VR, ์ํ, ๊ฒ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์์ฉ ๊ฐ๋ฅํ๋, ํ ์คํธ ํ๋กฌํํธ๋ง์ผ๋ก ์์ฑ๋ 3D asset ์ ์ ์ฒด์ฑ, ๊ธฐํํ์ ๊ตฌ์กฐ, ์ธ๊ด์ ์ ํํ๊ฒ ์ ์ดํ๊ธฐ ์ด๋ ค์.
ํนํ, ํน์ subject ์ ํน์ฑ์ ๋ฐ์ํ๋ 3D assets ๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ๋ํ ๊ฐ๋ฐ ํ์
T2I ๋ชจ๋ธ subject personalization (๋ง์ถคํ, ๊ฐ์ธํ) ํ์คํฌ์์ ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ ์ฐ๊ตฌ๋ค์ ๋ง์ง๋ง, 3D asset ์์ฑ์ด๋ 3D control ์ ์ ๊ณตํ์ง๋ ์์.
DreamBooth3D๋ ์์์ (3-6๊ฐ) ์บ์ฃผ์ผํ๊ฒ ์ดฌ์๋ ์ด๋ฏธ์ง๋ก๋ถํฐ subject ์ค์ฌ์ ํ ์คํธ-3D ์์ฑ์ ์ ์
โ NeRF ์ T2I ๋ชจ๋ธ์ ํจ๊ป ์ต์ ํํ์ฌ subject ์ค์ฌ์ 3D ์์ฐ์ ์์ฑํ์ !
๋ฌธ์ ์
subject์ ๋ง๊ฒ ๊ฐ์ธํ๋ T2I ๋ชจ๋ธ & NeRF ๋ฅผ ์ต์ ํ ํ๋ ๊ฒ์ ์ฌ๋ฌ ์คํจ ์ฌ๋ก๊ฐ ๋ฐ์
์ฃผ์ ๋ฌธ์ : ๊ฐ์ธํ๋ T2I ๋ชจ๋ธ์ด ์ ํ๋ ์ฃผ์ ์ด๋ฏธ์ง์ ์นด๋ฉ๋ผ ๋ทฐํฌ์ธํธ์ ๊ณผ์ ํฉ
์ฐ์์ ์ธ ์์์ ๋ทฐํฌ์ธํธ์์ ์ผ๊ด๋ 3D NeRF ๊ฒฐ๊ณผ๋ฌผ์ ์ต์ ํํ๋ ๋ฐ ์ถฉ๋ถํ์ง ์์.
ํด๊ฒฐ์ฑ
DreamBooth3D๋ ํจ๊ณผ์ ์ธ 3๋จ๊ณ ์ต์ ํ ๋ฐฉ์์ ์ ์
Dream Booth , Dream Fusion ์ฌ์ฉ
[STEP 1๏ธโฃ]
DreamBooth ๋ชจ๋ธ์ ๋ถ๋ถ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์
DreamFusion์ ์ฌ์ฉํ์ฌ NeRF ์ต์ ํ
๋ถ๋ถ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋ DreamBooth ๋ชจ๋ธ์ ์ฃผ์ด์ง ๋์ ๋ทฐ์ ๊ณผ์ ํฉ ๋์ง ์์ผ๋ฉฐ ๋ชจ๋ subject๋ณ ์ธ๋ถ ์ ๋ณด๋ฅผ ์บก์ฒํ์ง ์์
๊ฒฐ๊ณผ์ ์ผ๋ก ์์ฑ๋ NeRF ์์ฐ์ 3D ์ผ๊ด์ฑ์ด ์์ง๋ง subject ์ ๋ํ ํน์ฑ์ ์์ ํ ๋ฐ์ํ์ง๋ชปํจ.
[STEP 2๏ธโฃ]
DreamBooth ๋ชจ๋ธ์ ์์ ํ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ธ๋ถ ์ฌํญ์ ์บก์ฒ
1๋จ๊ณ์์ ํ์ต๋ NeRF์ ๋ค์ค ๋ทฐ ๋ ๋๋ง์ ์์ ํ ํ์ต๋ DreamBooth ๋ชจ๋ธ์ ํฌ์
์ด๋ฅผ ํตํด subject ๋ณ๋ก ๋ค์ค ๋ทฐ ๊ฐ์ ์ด๋ฏธ์ง ์งํฉ์ ์์ฑ
[STEP 3๏ธโฃ]
1๋จ๊ณ์ ์ฃผ์ด์ง subject ์ด๋ฏธ์ง์ ๊ฐ์(pseudo) ๋ค์ค ๋ทฐ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ DreamBooth ๋ชจ๋ธ์ ์ถ๊ฐ๋ก ์ต์ ํ
์ถ๊ฐ ์ต์ ํํ DreamBooth ๋ก NeRF 3D ๋ณผ๋ฅจ์ ์ต์ข ์ต์ ํ
์ต์ข NeRF ์ต์ ํ์ ์ถ๊ฐ ๊ท์ ํญ์ผ๋ก pseudo ๋ค์ค ๋ทฐ ๋ฐ์ดํฐ ์ธํธ์ ๋ํ weak reconstruction loss๋ฅผ ์ฌ์ฉ
3๋จ๊ณ์ ๊ฑธ์น NeRF ๋ฐ T2I ๋ชจ๋ธ์ ํฉ๋ ์ต์ ํ๋ DreamBooth ๋ชจ๋ธ์ด subject ์ ํน์ view point ์ ๊ณผ์ ํฉ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ ๋์์ ๋์์ ๊ฒฐ๊ณผ NeRF ๋ชจ๋ธ์ด ๋์์ ์ ์ฒด์ฑ์ ์ถฉ์คํ๋๋ก ๋ณด์ฅ
๊ฒฐ๊ณผ
์คํ ์ํ ๊ฒฐ๊ณผ๋ค์ ํตํด ๋ณธ ์ ๊ทผ ๋ฐฉ์์ด ์ ๋ ฅ ํ ์คํธ ํ๋กฌํํธ์ ์กด์ฌํ๋ ์ปจํ ์คํธ๋ฅผ ์กด์คํ๋ฉด์ ์ฃผ์ด์ง ๋์๊ณผ ์ ์ฌ์ฑ์ด ๋์ ํ์ค์ ์ธ 3D ์์ฐ์ ์์ฑํ ์ ์์์ ์ ์ฆ
์ฌ๋ฌ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋น๊ตํ ๋, ์ ๋์ ๋ฐ ์ ์ฑ์ ๊ฒฐ๊ณผ๋ DreamBooth 3D ์์ฑ์ด ๋ณด๋ค 3D ์ผ๊ด์ฑ์ด ์๊ณ ๋์ ์ธ๋ถ ์ฌํญ์ ๋ ์ ํฌ์ฐฉํ๋ค๋ ๊ฒ์ ์ ์ฆ
3. Approach#
Problem setup.
Input : subject ์ด๋ฏธ์ง ์งํฉ, ํ ์คํธ ํ๋กฌํํธ
\(\left\{I_i \in \mathbb{R}^{n \times 3}\right\}(i \in\{1, \ldots, k\})\) : ๊ฐ n๊ฐ์ ํฝ์ , k ์ฅ์ subject ์ด๋ฏธ์ง๋ค์ ์งํฉ
context(๋งฅ๋ฝ) ๋ถ์ฌ, ์๋ฏธ ๋ณํ๋ฅผ ์ํ ํ ์คํธ ํ๋กฌํํธ T (ex) sleeping, standingโฆetc.
๐ Goal ํ ์คํธ ํ๋กฌํํธ์ ์ถฉ์คํ๋ฉด์ ์ฃผ์ด์ง subject ์ identity (๊ธฐํ ํํ ๋ฐ ์ธ๊ด)์ ๋ฐ์ํ๋ 3D assets ์์ฑ#
3D volume ์์ radiance ํ๋๋ฅผ ์ธ์ฝ๋ฉํ๋ MLP ๋คํธ์ํฌ \(M\) ์ผ๋ก ๊ตฌ์ฑ๋ Neural Radiance Fields (NeRF) ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 3D assets ๋ฅผ ์ต์ ํ
๋ณธ ๋ฌธ์ ๋ subject ์ด๋ฏธ์ง์ ๋ํ ๋ฐ์์ด ํ์ํ๊ธฐ ๋๋ฌธ์, ์ผ๋ฐ์ ์ธ multi-view ์ด๋ฏธ์ง ์บก์ฒ๊ฐ ํ์ํ 3D reconstruction ์ค์ ์ ๋นํด ์๋นํ ์ ํ์ ์ด๊ณ ์ด๋ ค์ด ๋ฌธ์
T2I personalization ๋ฐ Text-to-3D ์ต์ ํ์ ์ต๊ทผ ๋ฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ๊ธฐ์ ์ ๊ตฌ์ถ
โ DreamBooth personalization + DreamFusion text-to-3D๋ก ์ต์ ํ๋ฅผ ์ฌ์ฉ
3.1. Preliminaries#
3.1.1 T2I diffusion models#
T2I diffusion models : Imagen, StableDiffusion and DALL-E 2 โฆetc..
T2I diffusion model \(\mathcal{D}_\theta(\epsilon, \mathbf{c})\)
input :์ด๊ธฐ ๋ ธ์ด์ฆ \(\epsilon\) , ํ๋กฌํํธ ํ ์คํธ ์๋ฒ ๋ฉ \(\mathbf{c}\)
an initial noise \(\epsilon \sim \mathcal{N}(0,1)\)
text embedding \(\mathbf{c}=\Theta(T)\) (a given prompt \(T\) with a text encoder \(\Theta\))
output : ํ๋กฌํํธ๋ฅผ ๋ฐ์ํ์ฌ ์์ฑํ ์ด๋ฏธ์ง
T2I diffusion model ์ ํตํด ์์ฑ๋ ์ด๋ฏธ์ง๋ ์ผ๋ฐ์ ์ผ๋ก ํ๋กฌํํธ์ ์ผ์นํ์ง๋ง ์์ฑ๋ ์ด๋ฏธ์ง๋ด์์ ์ธ๋ถ์ ์ธ ์ ์ด๊ฐ ์ด๋ ค์. โ DreamBooth ๋ฅผ ํตํด ์ด๋ฅผ ํด๊ฒฐ
3.1.2 Dream Booth T2I Personalization.#
\(\left\{I_i\right\}\) ์์ ๋คํธ์ํฌ๋ฅผ ํ์ธํ๋ํ์ฌ T2I diffusion ๋ชจ๋ธ์ ๋ง์ถคํ, \(\left\{I_i\right\}\) : a small set of casual captures
DreamBooth diffusion loss : T2I model ํ์ธํ๋์ ์ํด ์ฌ์ฉ
\[ \mathcal{L}_d=\mathbb{E}{\epsilon, t}\left[w_t\left\|\mathcal{D}_\theta\left(\alpha_t I_i+\sigma_t \epsilon, \mathbf{c}\right)-I_i\right\|^2\right], \]\(t \sim \mathcal{U}[0,1]\) : the time-step in the diffusion proces
\(w_t, \alpha_t, \sigma_t\) : the corresponding scheduling parameters
DreamBooth Class prior preserving loss
DreamBooth ๋ \(\left\{I_i\right\}\) ์ ๋ํ over fitting ์ ๋ฐฉ์งํ์ฌ ๋ค์์ฑ์ ๊ฐ์ ํ๊ณ , language drift ํ์์ ํผํ๊ธฐ ์ํด ์ ํ์ ์ผ๋ก class prior preserving loss ๋ฅผ ์ฌ์ฉ
์ต์ข loss : reconstruction loss + class prior preservation loss
(example) over fitting
(example) language-drift
3.1.3 DreamFusion#
T2I diffusion model์ ์ฌ์ฉํ์ฌ ๋ณผ๋ฅจ์ ๋๋ค๋ทฐ๊ฐ ํ๋กฌํํธ \(T\) ์ ์์ํ๋๋ก NeRF \(\mathcal{M}_\phi\) (\(\phi\) : parameters) ๋ฅผ ํตํด ํํ๋ ๋ณผ๋ฅจ์ ์ต์ ํ
normals : ๋ฐ๋์ ๊ทธ๋๋์ธํธ๋ก๋ถํฐ ๊ณ์ฐ๋ nomals์ Lambertian shading ์ผ๋ก ๊ธฐํํ์ ์ฌ์ค์ฑ์ ๊ฐ์ ์ํค๊ธฐ ์ํด ๋ชจ๋ธ์ ๋๋ค์ผ๋ก relight ํ๋๋ฐ ์ฌ์ฉ๋จ.
\(\mathcal{M}_\phi\) : mapping (camera, light (location) โ albedo &density)
๋๋ค ๋ทฐ \(v\), ๋๋ค ์กฐ๋ช (light) ๋ฐฉํฅ์ด ์ฃผ์ด์ง๋ฉด shaded(์์ ์ฒ๋ฆฌ๋) ์ด๋ฏธ์ง \(\hat{I}v\) ๋ก ๋ณผ๋ฅจ ๋ ๋๋ง์ ์ํ
์ด ๋ ๋ณผ๋ฅจ ๋ ๋๋งํ ์ด๋ฏธ์ง๊ฐ ํ ์คํธ ํ๋กฌํํธ \(T\) ์ฒ๋ผ ๋ณด์ด๋๋ก NeRF \(\phi\) ์ ๋งค๊ฐ๋ณ์๋ฅผ ์ต์ ํํ๊ธฐ ์ํด DreamFusion ์ score distillation sampling *(SDS) ๋ฅผ ๋์
score distillation sampling (SDS)
\[ \nabla_\phi \mathcal{L}_{SDS}=\mathbb{E}{\epsilon, t}\left[w_t\left(\mathcal{D}_\theta\left(\alpha_t \hat{I}_v+\sigma_t \epsilon, \mathbf{c}\right)-\hat{I}_v\right) \frac{\partial \hat{I}_v}{\partial \phi}\right] . \]๋ ๋๋ง๋ ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๊ฐ ์ฒ๋ฆฌ๋ ๋ฒ์ ๋ค์ T2I diffusion model์ ๋ฎ์ ์๋์ง ์ํ๋ก push
๋ค์ํ views๋ฅผ ๋๋ค์ผ๋ก ์ ํํ๊ณ , NeRF ๋ฅผ ํตํด ์ญ์ ํ ํจ์ผ๋ก์จ, rendering ๊ฒฐ๊ณผ๋ค์ด T2I model \(\mathcal{D}_\theta\) ๋ก ์ฃผ์ด์ง ํ๋กฌํํธ์ ๋ง๊ฒ ์์ฑ๋ ์ด๋ฏธ์ง์ฒ๋ผ ๋ณด์ด๋๋ก ํจ.
DreamFusion ์์ ์ฌ์ฉ๋ ์คํ ํ๊ฒฝ์ ์ ํํ๊ฒ ๋์ผํ๊ฒ ์ฌ์ฉํจ.
3.2 Failure of Naive Dreambooth+Fusion#
ํผ์ฌ์ฒด(subject) ์ค์ฌ text-to-3D ์์ฑ์ ์ํ ์ง๊ด์ ์ธ ์ ๊ทผ ๋ฐฉ์
subject์ ๋ํด T2I model ์ pesonalized(๋ง์ถคํ)
๋ง์ถคํ๋ T2I model ์ text-to-3D optimization ์ ์ํด ์ฌ์ฉ
์ฆ, DreamBooth ์ต์ ํ(personalized) โ DreamFusion ์ต์ ํ
BUT, Naive Dreambooth+Fusion ์ ๊ฒฐํฉ์ ๋ถ๋ง์กฑ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ์ด๋
ํต์ฌ ๋ฌธ์ (KEY Issue)
Dream Booth๊ฐ ํ๋ จ๋ ๋ทฐ์ ์กด์ฌํ๋ subject ์ ๋ทฐ์ ๊ณผ์ ํฉ ๋์ด ์ด๋ฏธ์ง ์์ฑ์์ viewpoint ์ ๋ํ ๋ค์์ฑ์ด ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์.
๋ฏธ์ธ ์กฐ์ ๋จ๊ณ๊ฐ ์ฆ๊ฐํ ์๋ก, Subject ์ ์ฌ์ฑ ์ฆ๊ฐ (๐) BUT input exemplar views์ ์ ์ฌํ๋๋ก viewpoints ์์ฑ (๐) โ ์ฆ, ๋ค์ํ ์์ ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ด ์ ํ๋จ.
์ด๋ฐ DreamBooth ๋ชจ๋ธ ๊ธฐ๋ฐ์ NeRF SDS ์์ค์ ์ผ๊ด๋ 3D NeRF ๊ฒฐ๊ณผ๋ฌผ์ ์ป๊ธฐ์ ๋ถ์ถฉ๋ถ
DreamBooth+Fusion NeRF ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ view ์ ๊ฑธ์ณ ํ์ต๋ ๋์ผํ ๋์์ ๋ํ ๋ทฐ(์: face of a dog : ๋ค์ํ ๊ฐ๋์์ ๋ณธ ๋์ผํ dog face)๋ฅผ ๊ฐ์ง๊ณ ์์.
โJanus problemโ : ๋ ๊ฐ์ง ์๋ฐ๋๊ฑฐ๋ ์ฐ๊ด๋ ์ธก๋ฉด์ ๋์์ ๋ค๋ฃจ์ด์ผ ํ๋ ๋ฌธ์
3.3. Dreambooth3D Optimization#
DreamBooth3D Overview
stage-1 (์ผ์ชฝ): ๋จผ์ DreamBooth๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ํ๋ จ์ํค๊ณ , ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ด๊ธฐ NeRF๋ฅผ ์ต์ ํ
stage-2 (๊ฐ์ด๋ฐ): ์ด๊ธฐ NeRF์์ ๋๋ค ์์ ์ ๋ฐ๋ผ ๋ค์ค ์์ ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋งํ ํ, ์์ ํ ํ๋ จ๋ DreamBooth ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ด๋ฅผ ๊ฐ์ ๋ค์ค ์์ subject ์ด๋ฏธ์ง๋ก ๋ณํ
stage-3 (์ค๋ฅธ์ชฝ): ๋ค์ค ์์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ๋ถ์ ์ธ DreamBooth๋ฅผ ์ถ๊ฐ๋ก ๋ฏธ์ธ ์กฐ์ ํ ๋ค์, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ป์ด์ง ๋ค์ค ์์ DreamBooth๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ข NeRF 3D ์์ฐ์ SDS ์์ค๊ณผ ๋ค์ค ์์ ์ฌ๊ตฌ์ฑ ์์ค์ ํตํด ์ต์ ํ
์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ฑ๊ณต์ ์ธ subject ๋ง์ถค text-to-3D ์์ฑ์ ์ํด ํจ์จ์ ์ธ 3๋จ๊ณ ์ต์ ํ ๋ฐฉ์์ ๊ธฐ๋ฐ์ผ๋ก ํ Dream-Booth3D ์ ์
3.3.1 Stage 1๏ธโฃ: 3D with Partial DreamBooth#
์ ๋ ฅ๋ Subject ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ DreamBooth ๋ชจ๋ธ \(\hat{\mathcal{D}}_\theta\) ๋ฅผ ํ๋ จ
๐ DreamBoothT2I ๋ชจ๋ธ์ ์ด๊ธฐ ์ฒดํฌํฌ์ธํธ๊ฐ (=๋ถ๋ถ์ ์ผ๋ก ํ์ธํ๋ํ ๊ฒฐ๊ณผ) ์ฃผ์ด์ง subject view์ ๊ณผ์ ํฉ๋์ง ์์์ ํ์ธ
โ partial DreamBooth (๋ถ๋ถ์ ์ผ๋ก ํ์ธํ๋ํ Dreambooth)
partial DreamBooth ๋ชจ๋ธ ํ์ DreamFusion์ ๋ ์ผ๊ด๋ 3D NeRF๋ฅผ ์์ฑ๊ฐ๋ฅ
NeRF ์ต์ ํ์ SDS ์์ค ์ฌ์ฉ :
\(\nabla_\phi \mathcal{L}_{SDS}=\mathbb{E}{\epsilon, t}\left[w_t\left(\hat{\mathcal{D}}_\theta^{\text {partial }}\left(\alpha_t \hat{I}_v+\sigma_t \epsilon, \mathbf{c}\right)-\hat{I}_v\right) \frac{\partial \hat{I}_v}{\partial \phi}\right]\)
\(\hat{\mathcal{D}}_\theta^{\text {partial }}\): partial DreamBooth
SDS ์์ค์ ์ฌ์ฉํ์ฌ ์ฃผ์ด์ง ํ ์คํธ ํ๋กฌํํธ์ ๋ํ ์ด๊ธฐ NeRF ์์ฐ์ ์ต์ ํ
partial DreamBooth ๋ชจ๋ธ๊ณผ NeRF ๊ฒฐ๊ณผ๋ฌผ์ ์ ๋ ฅ๋ subject ์ ์์ ํ ์ ์ฌํ์ง ์์
๐ ์ฆ, Stage-1๏ธโฃ ์์์ ์ด๊ธฐ NeRF ๋ ์ฃผ์ด์ง subject ์ ๋ถ๋ถ์ ์ผ๋กใ ์ ์ฌํ๋ฉด์, ์ฃผ์ด์ง ํ ์คํธ ํ๋กฌํํธ์ ์ถฉ์คํ subject class 3D ๋ชจ๋ธ
3.3.2 Stage 2๏ธโฃ: Multi-view Data Generation#
๐ Stage-2 Multi-view Data Generation : ๋ณธ ์ ๊ทผ๋ฒ์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ
์ผ๊ด์ฑ์ ๊ฐ์ถ 3D initial NeRF ์ fully-trained DreamBooth ๋ฅผ ์ฌ์ฉํ์ฌ pseudo multi-view subject ์ด๋ฏธ์ง๋ค์ ์์ฑ
Initial NeRF ๋ก๋ถํฐ ๋ค์ํ ๋๋ค viewpoints \(\{v\}\)์ ๋ฐ๋ผ ์ฌ๋ฌ ์ด๋ฏธ์ง\(\left\{\hat{I}v \in \mathbb{R}^{n \times 3}\right\}\) ๋ฅผ ๋ ๋๋งํ์ฌ ๋ค์ค ์์ ๋ ๋๋ง์ ์์ฑ
๊ฐ ๋ ๋๋ง์ ๊ณ ์ ๋ ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ forward diffusion ๊ณผ์ ์ ํตํด \(t_{pseudo}\)๋ก ์ ํ
reverse diffusion ๊ณผ์ ์ ์คํํ์ฌ fully-trained DreamBooth ๋ชจ๋ธ \(\hat{\mathcal{D}}_\theta\) ๋ฅผ ์ฌ์ฉํ์ฌ ์ํ์ ์์ฑ
์ํ๋ง ๊ณผ์ ์ ๊ฐ ๋ทฐ์ ๋ํด ๋ ๋ฆฝ์ ์ผ๋ก ์ํ
Initial NeRF ๊ฒฐ๊ณผ๋ฌผ ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ noisy render ๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ง์ ํจ์ผ๋ก์จ, ๋์ ๋ฒ์์ ์์ ์ ์ปค๋ฒํ๋ฉด์ subject ๋ฅผ ์ ๋ํ๋ด๋ ์ด๋ฏธ์ง ์์ฑ ๊ฐ๋ฅ โ ๋ค์ํ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ด๋ฏธ์ง๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ์ต์, ๋ค์ํ ๋ณํ์ ๋ํ ํ์ต ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ
BUT reverse diffusion ๊ณผ์ ์ ๋ค๋ฅธ ๋ทฐ์ ๋ค๋ฅธ ์ธ๋ถ ์ฌํญ์ ์ถ๊ฐํ ์ ์๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง๋ multi-view ์ ๋ํ ์ผ๊ด์ฑ์ด ์์.
โ ๊ฐ์(pseudo) ๋ค์ค ์์ ์ด๋ฏธ์ง ์งํฉ (collection of pseudo multi-view images)
๐ Key insight
์ด๊ธฐ NeRF ์ด๋ฏธ์ง๊ฐ unseen views ์ ๊ฐ๊น์ธ ๊ฒฝ์ฐ, DreamBooth๊ฐ Subject ์ unseen views๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์์ฑ ๊ฐ๋ฅ
์ ๋ ฅ ์ด๋ฏธ์ง์ ๋นํด Subject ์ ๋ ์ ์ฌํ ์ถ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์์ฑ๊ฐ๋ฅ**
์ ๊ทธ๋ฆผ์ ํตํด ์ฒดํฌํ ๋ถ๋ถ
fully-trained DreamBooth ๋ฅผ ์ฌ์ฉํ Img2Img ๋ณํ์ ์ํ ์ถ๋ ฅ
์ ๋ ฅ NeRF ๋ ๋๋ง์ ์์ ์ ์ ์งํ๋ฉด์๋ subject ์ด๋ฏธ์ง์ ๋ ์ ์ฌํ ๋ชจ์ต
๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ ๋ฌ๋ฆฌ Img2Img ๋ณํ์ DreamBooth, NeRF 3D assets ๊ณผ ๊ฒฐํฉํ์ฌ ์ฌ์ฉ (๊ธฐ์กด ์ฐ๊ตฌ์ ๊ฒฝ์ฐ Img2Img ๋ณํ์ ์ด๋ฏธ์ง editing ์์ฉ์ผ๋ก๋ง ์ฌ์ฉ)
3.3.3 Stage3๏ธโฃ: Final NeRF with Multi-view DreamBooth#
์๋ก์ด ๋ฐ์ดํฐ \(I^{\text{aug}}\) ์์ฑ
๊ฐ์ ๋ค์ค ์์ ์ด๋ฏธ์ง \(\left\{I_v^{\text {pseudo }}\right\}\), ์ ๋ ฅ Subject ์ด๋ฏธ์ง \(\left\{I_i\right\}\) ์ ๊ฒฐํฉ์ ํตํด ์์ฑ
\(I^{\text {aug}}\) ๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ข Multi-view DreamBooth ๋ชจ๋ธ์ ์ต์ ํ
1๋จ๊ณ์์ partial DreamBooth \(\hat{\mathcal{D}}_{\theta^*}\) ์ค๋น
์์ ์ฆ๊ฐ ๋ฐ์ดํฐ \(I^{\text {aug}}\) ๋ฅผ ์ฌ์ฉํ์ฌ \(\hat{\mathcal{D}}_{\theta^*}\) ์ ๋ํ ํ์ธํ๋์ ์ถ๊ฐ ์งํ
Multi-view DreamBooth \(\hat{\mathcal{D}}_\theta^{\mathrm{multi}}\) ๋ฅผ ์์ฑ
\(\hat{\mathcal{D}}_\theta^{\text {multi }}\) ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ DreamFusion SDS Loss ์ ํจ๊ป NeRF 3D assets ๋ฅผ ์ต์ ํ
1๋จ๊ณ์ partial DreamBooth์ ๋นํด multi-view DreamBooth ์ ๋ทฐ ์ผ๋ฐํ์ subject ๋ณด์กด ๋ฅ๋ ฅ์ด ๋ ์ฐ์ํ๊ธฐ ๋๋ฌธ์ subject idendtity๊ฐ ์๋นํ ํฅ์๋ NeRF ๋ชจ๋ธ ์์ฑ ๊ฐ๋ฅ
BUT SDS ์์ค๋ง ์ฌ์ฉ์ ์ต์ ํ๋ NeRF assets ์ด
์ฃผ์ด์ง subject ์ ๋ํด ์ฐ์ํ ๊ธฐํํ์ ์ ์ฌ์ฑ ๋ณด์
Color saturation artifacts ํ์ ๋ค์ ๋ฐ์
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด \(\left\{I_v^{\mathrm{pseudo}}\right\}\) ๋ฅผ ์ฌ์ฉํ ์๋ก์ด weak reconstruction loss ๋์
**** Color saturation artifacts :**
์์์ ๊ณผ๋ํ ํฌํ(saturation)๋ก ์ธํด ๋นํ์ค์ ์ด๊ฑฐ๋ ์๊ณก๋ ์์ ํํ์ด ๋ํ๋๋ ๊ฒฐํจ ํ์
๋ชจ๋ธ์ด ํน์ ์์์ ๊ณผ๋ํ๊ฒ ๊ฐ์กฐํ๋ ๊ฒฝ์ฐ ๋ฐ์
์์ ๊ฐ์ ์๋ชป ์์ธกํ์ฌ ๋นํ์ค์ ์ธ ์์ ํํ์ด ๋ํ๋ ๊ฒฝ์ฐ ๋ฐ์
๋ค์ํ ์์ ์์ ์ผ๊ด๋ ์์ ํํ์ ์ ์งํ์ง ๋ชปํ ๊ฒฝ์ฐ ๋ฐ์
Reconstruction loss
\(\left\{I_v^{\mathrm{pseudo}}\right\}\) ๊ฐ ์์ฑ๋ ์นด๋ฉ๋ผ ๋งค๊ฐ๋ณ์ \(\left\{P_v\right\}\) ์ ๋ณด๋ฅผ ์๊ณ ์์ผ๋ฏ๋ก, ๋ ๋ฒ์งธ NeRF MLP \(\mathcal{F}\gamma\) ์ ํ๋ จ์ reconstruction loss ๋ฅผ ํตํด ์ถ๊ฐ๋ก ๊ท์
\[ \mathcal{L}_{recon }=\left\|\Gamma\left(\mathcal{F}_\gamma, P_v\right)-I_v^{\text {pseudo }}\right\|_p, \]\(\Gamma\left(\mathcal{F}\gamma, P_v\right)\) : ์นด๋ฉ๋ผ ์์ \(P_v\) ๋ฅผ ๋ฐ๋ผ NeRF \(\mathcal{F}\gamma\) ์์ ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋งํ๋ ํจ์
Reconstruction loss ์ ๋ชฉ์
์์ฑ๋ ๋ณผ๋ฅจ์ ์์ ๋ถํฌ๋ฅผ image exemplars ๊ณผ ๋ ๊ฐ๊น๊ฒ ์กฐ์
unseen views์์ subject ์ ์ฌ์ฑ์ ํฅ์
Final NeRF Loss function
\(\mathcal{L}_{\text {nerf }}\) ๋ Mip-NeRF360 [2]์์ ์ฌ์ฉ๋ ์ถ๊ฐ์ ์ธ NeRF ์ ๊ทํ
4. Experiments#
Implementation Details.
์ฌ์ฉ ๋ชจ๋ธ:
T2I : Imagen T2I ๋ชจ๋ธ
Text-encoding: T5-XXL
NeRF : DreamFusion
ํ๋ จ ์๊ฐ: 4core TPUv4, ๊ฐ ํ๋กฌํํธ๋น 3๋จ๊ณ ์ต์ ํ๋ฅผ ์๋ฃํ๋ ๋ฐ ์ฝ 3์๊ฐ ์์
ํ๋ จ ๋จ๊ณ:
๋ถ๋ถ DreamBooth ๋ชจ๋ธ (\(D_ฮธ^{partial}\)) : 150๋ฒ์ ๋ฐ๋ณตํ๋ จ
์ ์ฒด DreamBooth ๋ชจ๋ธ (\(D_ฮธ\)) : 800๋ฒ ๋ฐ๋ณต ํ๋ จ์ ์ต์ ์ ์ฑ๋ฅ
pseudo multi-view data generation : ์์ ์์ ๊ณ ์ ๋ ๋ฐ๊ฒฝ์ผ๋ก ๊ท ์ผํ๊ฒ ์ํ๋งํ 20๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋ง
Stage-3 Multi-view DreamBooth \(\hat{\mathcal{D}}_\theta^{\mathrm{multi}}\): 3๋จ๊ณ์์ ์ถ๊ฐ๋ก 150๋ฒ ๋ฐ๋ณตํ์ฌ ๋ถ๋ถ์ ์ผ๋ก ํ๋ จ๋ \(\hat{D}_{ฮธ}^โ\) ๋ชจ๋ธ์ Finetuning
Hyperparams : supplementary material ์ฐธ๊ณ
Datasets.
ํ๋ จ ๋ฐ์ดํฐ: ๊ณต๊ฐ๋ ์ด๋ฏธ์ง ์ปฌ๋ ์ ์ ์ฌ์ฉํ์ฌ personalized text-to-3D ๋ชจ๋ธ์ ํ๋ จ
๋ค์ํ subject(๊ฐ, ์ฅ๋๊ฐ, ๋ฐฐ๋ญ, ์ ๊ธ๋ผ์ค, ๋งํ ์บ๋ฆญํฐ ๋ฑ) ์ 4-6๊ฐ์ casual ์ด๋ฏธ์ง๋ฅผ ํฌํจํ 30๊ฐ์ ๋ค๋ฅธ ์ด๋ฏธ์ง ์ปฌ๋ ์ ์ผ๋ก ๊ตฌ์ฑ
ํฌ๊ท ๊ฐ์ฒด ์ฑ๋ฅ ๋ถ์: โ์ฌ๋นผ๋ฏธ ์ฅ์ํโ๊ณผ ๊ฐ์ ํฌ๊ทํ ๋์์ ์ฑ๋ฅ์ ๋ถ์ํ๊ธฐ ์ํด ์ถ๊ฐ ์ด๋ฏธ์ง ์์ง
3-6๊ฐ์ ํ๋กฌํํธ์ ๋ํด ๊ฐ 3D ๋ชจ๋ธ์ ์ต์ ํํ์ฌ 3D contextualizations ๋ฌธ๋งฅํ ์์ฐ
Baselines.
Latent-NeRF
RGB ํฝ์ ๊ณต๊ฐ์ด ์๋ Stable Diffusion ์ latent feature ๊ณต๊ฐ์์ SDS ์์ค์ ํตํด 3D NeRF ๋ชจ๋ธ์ ํ์ต
baseline ์ผ๋ก์จ fully dreamboothed T2I model ๋ฅผ ์ฌ์ฉํ์ฌ Latent-NeRF ์คํ
DreamFusion+DreamBooth: DreamBooth ํ์ฐ ๋ชจ๋ธ์ ๋จผ์ ํ๋ จํ ํ DreamFusion์ ์ฌ์ฉํ์ฌ 3D NeRF๋ฅผ ์ต์ ํํ๋ ๋จ์ผ ๋จ๊ณ ์ ๊ทผ ๋ฐฉ์
๋ณธ ์ฐ๊ตฌ์ 3๋จ๊ณ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก : โDreamBooth3Dโ
Evaluation Metrics.
CLIP R-Precision
rendering๋ ์ฅ๋ฉด๋ค์ด ์ฃผ์ด์ก์ ๋ ํ๋กฌํํธ์ ์ผ๋ง๋ ์ ํํ๊ฒ ์ผ์นํ๋์ง ๋น์จ์ ๋ํ๋.
CLIP ViT-B/16, ViT-B/32, ViT-L-14 ๋ชจ๋ธ์ ํ๊ฐ์ ์ฌ์ฉ
์ถ๊ฐ์ ์ผ๋ก user study ์ํ (๋ค์ ์ธ๊ธ)
4.1. Results#
Visual Results
๋น๊ต ๊ฒฐ๊ณผ: DreamBooth3D, Latent-NeRF, DreamBooth+Fusion ๊ธฐ์ค ๋ชจ๋ธ์ ๋น๊ต
Latent-NeRF : ์ผ๋ถ ๊ฒฝ์ฐ(์ค๋ฆฌ)์์ ์ ์ ํ ์๋ํ์ง๋ง, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ์ผ๊ด๋ 3D ๋ชจ๋ธ์ ์์ฑํ๋ ๋ฐ ์คํจ
DreamBooth+Fusion : ์ฌ๋ฌ ์์ ์์ ๋์ผํ ์ธํ ๋ฐ ๊ตฌ์กฐ๋ฅผ ๋ณด์
DreamBooth3D : 360๋ ์ผ๊ด๋ 3D Asset์ ์์ฑํ๋ฉฐ, ์ฃผ์ด์ง subject ์ ๊ธฐํํ์ ๊ตฌ์กฐ ๋ฐ ์ธ๊ด์ ์ธ๋ถ ์ฌํญ์ ์ ๋ฐ์ํจ
Initial vs. Final NeRF
1๋จ๊ณ์ 3๋จ๊ณ์์ ์์ฑ๋ ์ด๊ธฐ NeRF์ ์ต์ข NeRF ๊ฒฐ๊ณผ
์ด๊ธฐ NeRF : ์ฃผ์ด์ง subject ์ ๋ถ๋ถ์ ์ผ๋ก๋ง ์ ์ฌ, 3D ์ผ๊ด์ฑ์ ์ ์ง
์ต์ข NeRF : ์ฃผ์ด์ง subject ์ ๋ ์ ์ฌํ, ์ผ๊ด๋ 3D ๊ตฌ์กฐ๋ฅผ ์ ์ง
์ด๋ฌํ ์์๋ DreamBooth3D์ 3๋จ๊ณ ์ต์ ํ๊ฐ ํ์ํจ์ ์ ์ฆ (?)
User Study.
โ DreamBooth3D์ ๋น๊ต ๋ชจ๋ธ๋ค์ ์ธ๊ฐ์ง์ธก๋ฉด์ ๋ํด ์๋์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ผ๋ก ํ๊ฐ**
subject ์ถฉ์ค๋: โ์ด๋ค 3D ํญ๋ชฉ์ด subject ์ ๋ ์ ์ฌํ๊ฒ ๋ณด์ ๋๊น?โ
3D ์ผ๊ด์ฑ๊ณผ ํ๋น์ฑ: โ์ด๋ค 3D ํญ๋ชฉ์ด ๋ ํ๋นํ๊ณ ์ผ๊ด๋ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๊น?โ
ํ๋กฌํํธ ์ถฉ์ค๋: โ์ด๋ค ๋น๋์ค๊ฐ ์ ๊ณต๋ ํ๋กฌํํธ๋ฅผ ๋ ์ ๋ฐ์ํฉ๋๊น?โ
์ฐ๊ตฌ ๋ฐฉ๋ฒ
3D ์ผ๊ด์ฑ๊ณผ ์ฃผ์ ์ถฉ์ค๋ ์ฐ๊ตฌ์์๋ ๋ฐ์ดํฐ์ ์ 30๊ฐ subject ๊ฐ๊ฐ์ ๋ํด ํ์ ๋น๋์ค ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๊ณ 11๋ช ์ ์ฌ์ฉ์๊ฐ ๊ฐ ์์ ๋ํด ์๋ต
ํ๋กฌํํธ ์ถฉ์ค๋ ์ฐ๊ตฌ์์๋ 54๊ฐ์ ๊ณ ์ ํ ํ๋กฌํํธ์ ์ฃผ์ ์์ ๋ํด ๋น๋์ค๋ฅผ ์์ฑํ๊ณ , 21๋ช ์ ์ฌ์ฉ์๊ฐ ์๋ต
์ต์ข ๊ฒฐ๊ณผ
์ต์ข ๊ฒฐ๊ณผ๋ ๋ค์๊ฒฐ ํฌํ๋ฅผ ํตํด ์ฐ์ถ
DreamBooth3D๋ 3D ์ผ๊ด์ฑ, ์ฃผ์ ์ถฉ์ค๋, ํ๋กฌํํธ ์ถฉ์ค๋์์ ๊ธฐ์ค ๋ชจ๋ธ๋ค๋ณด๋ค ์ ์๋ฏธํ๊ฒ ๋ ์ ํธ๋จ.
4.2. Sample Applications#
Recontextualization. (์ฌ๋ฌธ๋งฅํ)
๋จ์ํ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๊ฐ ์ฃผ์ ์ 3D ๋ชจ๋ธ๋ก ์ฌ๋ฌธ๋งฅํํ ์ํ ๊ฒฐ๊ณผ
๋ชจ๋ subject ์์ ํ ์คํธ ํ๋กฌํํธ์ ์ฃผ์ด์ง ๋ฌธ๋งฅ์ ์ผ๊ด๋๊ฒ ๋ฐ์
์ถ๋ ฅ๋ 3D ๋ชจ๋ธ์ ์์ธ์ ๋ก์ปฌ ๋ณํ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์๋ ํฌ์ฆ์์๋ ๋ถ๊ตฌํ๊ณ ๋งค์ฐ ์ฌ์ค์
Color/Material Editing.
์์ ํธ์ง ๋ฐ ์ฌ์ง ํธ์ง
Accessorization
subject ์ ์ก์ธ์๋ฆฌ ์ถ๊ฐ
Stylization
ํฌ๋ฆผ์ ์ ๋ฐ์ ์์๊ณผ ํ๋ฆด ์ถ๊ฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์คํ์ผํ
Cartoon-to-3D
๋น์ฌ์ค์ ํผ์์ฒด ์ด๋ฏธ์ง(์: 2D ํ๋ฉด ์บ๋ฆญํฐ)๋ฅผ ๊ทธ๋ด๋ฏํ 3D ํํ๋ก ๋ณํ
๋ชจ๋ subject ์ด๋ฏธ์ง๊ฐ ์ ๋ฉด์์๋ ๋ถ๊ตฌํ๊ณ , ๊ทธ๋ด๋ฏํ 3D ๊ฒฐ๊ณผ๋ฌผ ์์ฑ
4.3. Limitations#
์ต์ ํ๋ 3D ํํ์ด ๋๋๋ก ๊ณผ๋ํ๊ฒ ํฌํ๋๊ณ ๋งค๋๋ฝ๊ฒ ์ฒ๋ฆฌ๋๋ ๊ฒฝ์ฐ๊ฐ ์กด์ฌ
๋์ ๊ฐ์ค์น ๊ฐ์ด๋์ค๋ฅผ ๊ฐ์ง SDS ๊ธฐ๋ฐ ์ต์ ํ์ ์ํด ๋ฐ์
64ร64 ํฝ์ ์ด๋ผ๋ ์๋์ ์ผ๋ก ๋ฎ์ ์ด๋ฏธ์ง ํด์๋๋ก ์ ํ๋์ด ๋ฐ์
diffusion ๊ณผ NeRF ์ ํจ์จ์ฑ ํฅ์์ ๋ ๋์ ํด์๋๋ก ํ์ฅํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ๊ณต
Janus problem : ์ต์ ํ๋ 3D ํํ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์์ ๋ณํ๊ฐ ์์ผ๋ฉด ์ฌ๋ฌ ๋ถ์ผ์นํ ์์ ์์ ์ ๋ฉด์ผ๋ก ๋ณด์ด๋ viewpoints ๋ถ์ผ์น ๋ฌธ์ ๊ฐ ๋ฐ์
์ ๊ธ๋ผ์ค์ ๊ฐ์ ์์ ๊ฐ์ฒด ๊ตฌ์กฐ๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ๋ฐ ์ด๋ ค์์ด ์กด์ฌ
5. Conclusion#
Subject ์ค์ฌ์ ํ ์คํธ-3D ์์ฑ์ ์ํ ๋ฐฉ๋ฒ์ธ DreamBooth3D๋ฅผ ์ ์
Subject ์ ๋ํ ์๊ท๋ชจ casual ์ด๋ฏธ์ง ์ ํธ๊ฐ ์ฃผ์ด์ง๋ฉด, (์นด๋ฉ๋ผ ํฌ์ฆ์ ๊ฐ์ ์ถ๊ฐ ์ ๋ณด ์์ด) ์ ๋ ฅ ํ ์คํธ ํ๋กฌํํธ์์ ์ ๊ณต๋ ์ปจํ ์คํธ(์๊ณ ์๋, ์ ํํ๋, ๋นจ๊ฐ ๋ฑ)๋ฅผ ์ค์ํ๋ subject ๋ณ 3D assets ๋ฅผ ์์ฑ
DreamBooth ๋ฐ์ดํฐ์ ์ ๋ํ ๊ด๋ฒ์ํ ์คํ์ ํตํด ํด๋น ๋ฐฉ๋ฒ์ด ์ฃผ์ด์ง subject ์ ๋์ ์ ์ฌ์ฑ์ ๊ฐ์ง๋ฉด์๋ ์ ๋ ฅ ํ ์คํธ ํ๋กฌํํธ์ ๋ํ๋ ์ปจํ ์คํธ๋ฅผ ์ ๋ฐ์ํ๋ ํ์ค์ ์ธ 3D assets ์ ์์ฑํ ์ ์์์ ์ ์ฆ
์ ๋์ ๋ฐ ์ ์ฑ์ ํ๊ฐ์์ ์ฌ๋ฌ ๊ธฐ์ค ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ ํ์ธ