Information
Title: Point-E: A System for Generating 3D Point Clouds from Complex Prompts (Arxiv 2022)
Reference
Project: https://openai.com/index/point-e/
Author: Jeonghwa Yoo
Last updated on Sep. 11, 2024
Point-E: A System for Generating 3D Point Clouds from Complex Prompts (Arxiv 2022)#
Abstract#
์ ์ ๋ฐฐ๊ฒฝ
์ต๊ทผ ํ ์คํธ ์กฐ๊ฑด๋ถ 3D ๊ฐ์ฒด ์์ฑ ๊ธฐ์ (text-conditional 3D object generation)์ด ๋๋ผ์ด ๋ฐ์ ์ ๋ณด์ด๊ณ ์๋ค.
ํ์ง๋ง, SOTA ๋ชจ๋ธ๋ค์ ์ฌ์ ํ ํ๋์ ์ํ์ ๋ง๋ค๊ธฐ ์ํด ์ฌ๋ฌ GPU ์๊ฐ์ ์๊ตฌํ๊ณ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋จ์ผ GPU์์ 1~2๋ถ๋ง์ 3D ๋ชจ๋ธ์ ์์ฑํ๋ 3D ๊ฐ์ฒด ์์ฑ์ ์ํ ๋ฐฉ๋ฒ์ ํ์ํ๋ค.
์ ๊ทผ๋ฒ
ํ ์คํธ-์ด๋ฏธ์ง ๋ํจ์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋จ์ผ ํฉ์ฑ ๋ทฐ๋ฅผ ์์ฑํ ๋ค์ ๋ ๋ฒ์งธ ๋ํจ์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ๋ค.
๊ฒฐ๊ณผ
์ํ ํ์ง ์ธก๋ฉด์์ SOTA ์ฑ๋ฅ์ด ์๋์ง๋ง, ์ํ๋ง ์๋๊ฐ 1~2๋ฐฐ ๋ ๋น ๋ฅด๋ค.
1. Introduction#
Text-to-image ์์ฑ ๋ชจ๋ธ์์ text-to-vide/3D๋ก์ ๋ฐ์
์ต๊ทผ text-to-image ์์ฑ ๋ชจ๋ธ์ด ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ช ์ด๋ง์ ์์ฐ์ด์์ ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ ์์ ํ ์ ์๊ฒ ๋์๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ์ ์๊ฐ์ ๋ฐ์ ์ต๊ทผ ์ฐ๊ตฌ์์๋ ๋น๋์ค๋ 3D ๊ฐ์ฒด์ ๊ฐ์ ๋ค๋ฅธ ๋๋ฉ์ธ์์์ ํ ์คํธ ์กฐ๊ฑด๋ถ ์์ฑ์ ํ์ํ๊ณ ์๋ค.
๋ณธ ๋ ผ๋ฌธ๋ text-to-3D ์์ฑ ๋ฌธ์ ์ ์ค์ ์ ๋๋ค.
์ต๊ทผ text-to-3D ํฉ์ฑ์ ๋ถ๋ฅ
์ต๊ทผ text-to-3D ํฉ์ฑ์ ์ผ๋ฐ์ ์ผ๋ก ๋ค์์ ๋ ์นดํ ๊ณ ๋ฆฌ ์ค ํ๋์ ์ํ๋ค.
์์ ์ด๋ฃฌ(paired)(ex: text, 3D) ๋ฐ์ดํฐ ๋๋ ๋ ์ด๋ธ์ด ์๋(unlabeld) 3D ๋ฐ์ดํฐ์์ ์์ฑ ๋ชจ๋ธ์ ์ง์ (directly) ํ์ต ์ํค๋ ๋ฐฉ๋ฒ
์ฅ์ : ๊ธฐ์กด ์์ฑ ๋ชจ๋ธ๋ง ์ ๊ทผ ๋ฐฉ์์ ํ์ฉํ์ฌ ์ํ์ ํจ์จ์ ์ผ๋ก ์์ฑํ ์ ์๋ค.
๋จ์ : ๋๊ท๋ชจ 3D ๋ฐ์ดํฐ์ ์ด ์๊ธฐ ๋๋ฌธ์ ๋ค์ํ๊ณ ๋ณต์กํ ํ ์คํธ ํ๋กฌํํธ๋ก ํ์ฅํ๊ธฐ ์ด๋ ต๋ค. โ ๋ฐ์ดํฐ์ ์ ํ๊ณ, ํ์ฅ์ฑ์ ์ด๋ ค์
์ฌ์ ํ์ต๋ text-to-image ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ฏธ๋ถ๊ฐ๋ฅํ(differentiable) 3D ํํ๋ฒ๋ค(representations)์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ
์ฅ์ : ๋ณต์กํ๊ณ ๋ค์ํ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค.
๋จ์ :
๊ฐ ์ํ์ ๋ํด ์ต์ ํ ๊ณผ์ ์ ๊ฑฐ์ณ์ผ ํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆด ์ ์๋ค. ์ํ์ ์์ฑํ๋ ๋ฐ ๋น์ฉ์ด ๋ง์ด ๋๋ ์ต์ ํ ํ๋ก์ธ์ค๊ฐ ํ์ํ๋ค.
๊ฐ๋ ฅํ 3D prior๊ฐ ์๊ธฐ ๋๋ฌธ์ ์๋ฏธ ์๊ฑฐ๋ ์ผ๊ด๋ 3D ๊ฐ์ฒด์ ํด๋นํ์ง ์๋ local minima์ ๋น ์ง ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ๋ฒ
Text-to-image ๋ชจ๋ธ๊ณผ image-to-3D ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ๋์นดํ ๊ณ ๋ฆฌ์ ์ฅ์ ์ ํฉ์น๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
๋ณธ ๋ ผ๋ฌธ์ text-to-image ๋ชจ๋ธ
๋๊ท๋ชจ(ํ ์คํธ, ์ด๋ฏธ์ง)์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ๊ณ ๋ณต์กํ ํ๋กฌํํธ๋ฅผ ๋ฐ๋ฅผ ์ ์๊ฒ ํ๋ค.
3D ๋ ๋๋ง์ ๋ํด ํ์ธํ๋๋ GLIDE ๋ฒ์ ์ ์ฌ์ฉํ๋ค.
๋ณธ ๋ ผ๋ฌธ์ image-to-3D ๋ชจ๋ธ
์๊ท๋ชจ์(์ด๋ฏธ์ง,3D)์ ๋ฐ์ดํฐ๋ก ํ์ต๋๋ค.
RGB ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ๋ ๋ํจ์ ๋ชจ๋ธ์ ์คํ์ ์ฌ์ฉํ๋ค. (์๋ก์ด transformer ๊ธฐ๋ฐ ์ํคํ ์ฒ ์ฌ์ฉ)
์์ฑ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ๋ฉ์ฌ๋ฅผ ์์ฑํ๊ธฐ ์ํด ํ๊ท ๊ธฐ๋ฐ(regression-based) ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๋จผ์ text-to-image ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์ํ๋งํ๊ณ , ์ํ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฃ์ด 3D ๊ฐ์ฒด๋ฅผ ์ํ๋งํ๋ค.
์ด ๋ ๋จ๊ณ ๋ชจ๋ ๋ช ์ด ๋ด์ ์ํ๋ ์ ์์ผ๋ฉฐ, ๋น์ฉ์ด ๋ง์ด ๋๋ ์ต์ ํ ๊ณผ์ ์ ํ์๋ก ํ์ง ์๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ
๊ฐ๋จํ ํ ์คํธ ํ๋กฌํํธ๋ฟ๋ง ์๋๋ผ ๋ณต์กํ ํ ์คํธ ํ๋กฌํํธ์๋ ์ผ์นํ๋ ์ปฌ๋ฌ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ ์ ์์๋ค.
โ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ํจ์จ์ ์ผ๋ก ์์ฑํ๋ค๋ ์๋ฏธ์์ ๋ณธ ๋ ผ๋ฌธ์ ์์คํ ์ Point E๋ผ๊ณ ๋ช ์นญํ์๋ค.
2. Background#
๋ํจ์ ๋ชจ๋ธ ๊ฐ์:
์ ์ง์ ์ผ๋ก Gaussian ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๊ณผ์ ์ ํตํด ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ Ho et al. (2020)์ Gaussian ํ์ฐ ์ค์ ์ ๋ฐ๋ฅธ๋ค.
๋ ธ์ด์ฆ ํ๋ก์ธ์ค
๋ ธ์ด์ฆ ํ๋ก์ธ์ค๋ ์๊ฐ ๋จ๊ณ t๋ง๋ค ์ ํธ์ Gaussian ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ค.
์ต์ข ๋จ๊ณ์์๋ ์ํ์ด ๊ฑฐ์ ์ ๋ณด๋ฅผ ํฌํจํ์ง ์๊ฒ ๋๋ค.
์ญ ๋ ธ์ด์ฆ ํ๋ก์ธ์ค
๋๋ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ \(x_T\)์์ ์์ํ์ฌ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ ํ๋ก์ธ์ค๋ฅผ ์ญ์ผ๋ก ์งํํ์ฌ ์ก์์ด ์๋ ์ํ \(x_0\)์ ๋๋ฌํ ์ ์๋ค.
๋ชจ๋ธ ํ์ต
q(xtโ1|xt)๋ฅผ ์ ๊ฒฝ๋ง pฮธ(xtโ1|xt)๋ก ๊ทผ์ฌํ์ฌ ํ์ตํ๋ค.
Nichol & Dhariwal (2021)์ ํ๊ท ๋ฟ๋ง ์๋๋ผ ๋ถ์ฐ๋ ์์ธกํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ์ป์๋ค.
์ํ๋ง
๋ํจ์ ์ํ๋ง์ ๋ฏธ๋ถ ๋ฐฉ์ ์ ๊ด์ ์์ ์ค๋ช ๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ค์ํ SDE ๋ฐ ODE ํด์๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฌํ ๋ชจ๋ธ์์ ์ํ๋งํ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ Karras et al. (2022)์ 2์ฐจ ODE ํด์๊ธฐ๋ฅผ ์ฌ์ฉํ๋ค.
๊ฐ์ด๋ ์ ๋ต
Dhariwal & Nichol (2021)์ ๋ถ๋ฅ๊ธฐ ๊ฐ์ด๋์ค(classifier guidance)๋ฅผ ๋์ ํ์ฌ ์์ฑ ์ถฉ์ค๋๋ฅผ ๋์๋ค.
Ho & Salimans (2021)์ ๋ถ๋ฅ๊ธฐ ์๋ ๊ฐ์ด๋์ค(classifier-free guidance)๋ฅผ ๋์ ํ์ฌ ์กฐ๊ฑด๋ถ ์ ๋ณด๋ฅผ ๋ฌด์์๋ก ์ญ์ ํ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ํ์ต ์ ๋๋กญ ํ๋ฅ 0.1์ ์ฌ์ฉํ์ฌ ์ด ๊ธฐ์ ์ ์ ์ฉํ๋ค.
4. Method#
ํ ์คํธ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ ๋จ์ผ ์์ฑ ๋ชจ๋ธ๋ก ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ง์ ์์ฑํ๋ ๋์ ์์ฑ ํ๋ก์ธ์ค๋ฅผ ์ธ ๋จ๊ณ๋ก ๋๋๋ค.
โํ ์คํธ ์บก์ โ์ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ โํฉ์ฑ ๋ทฐโ๋ฅผ ์์ฑํ๋ค. โ 4.2 ๋ด์ฉ
GLIDE ๋ชจ๋ธ ์ฌ์ฉ
๋ ๋๋ง๋ 3D ๋ชจ๋ธ๋ก ํ์ธํ๋
โํฉ์ฑ ๋ทฐโ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ โ๋๋ต์ ์ธ(coarse) ํฌ์ธํธ ํด๋ผ์ฐ๋(1024๊ฐ์ ํฌ์ธํธ)โ๋ฅผ ์์ฑํ๋ค โ 4.3 ๋ด์ฉ
์กฐ๊ฑด๋ถ ์์ด ๋ถ๋ณ ๋ํจ์ ๋ชจ๋ธ(conditional, permutation invariant diffusion model) ์ฌ์ฉ
โ์ ํด์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ํฉ์ฑ ๋ทฐโ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ โ๊ณ ํด์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋(4096 ํฌ์ธํธ)โ๋ฅผ ์์ฑํ๋ค. โ 4.4 ๋ด์ฉ
2์์ ์ฌ์ฉ๋ ๋ชจ๋ธ๊ณผ ์ ์ฌํ์ง๋ง ์ ํด์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ ๋ ์์ ๋ํจ์ ๋ชจ๋ธ์ ์ฌ์ฉ
์๋ฐฑ๋ง ๊ฐ์ 3D ๋ชจ๋ธ๊ณผ ๊ด๋ จ ๋ฉํ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ธ์ ํ๋ จ์ํจ๋ค.
๋ฐ์ดํฐ์ ์ ๋ ๋๋ง๋ ๋ทฐ, ํ ์คํธ ์ค๋ช , ๊ทธ๋ฆฌ๊ณ ๊ฐ ์ ์ ๋ํ RGB ์์์ ํฌํจํ๋ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก ์ฒ๋ฆฌํ๋ค.
4-1. Dataset#
์๋ฐฑ๋ง ๊ฐ์ 3D ๋ชจ๋ธ์ ๋ฐ์ดํฐ ํ์๊ณผ ํ์ง์ด ๋ฐ์ดํฐ์ ์ ๋ฐ์ ๊ฑธ์ณ ๋งค์ฐ ๋ค์ํ๊ณ , ๋ ๋์ ๋ฐ์ดํฐ ํ์ง์ ๋ณด์ฅํ๊ธฐ ์ํด ๋ค์ํ ํ์ฒ๋ฆฌ ๋จ๊ณ๊ฐ ํ์ํ๋ค.
ํ์ฒ๋ฆฌ ๋จ๊ณ
Blender๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ์ผ๋ฐ์ ์ธ ํ์(RGBAD ์ด๋ฏธ์ง)์ผ๋ก ๋ณํํ๋ค.
Blender: ๋ค์ํ 3D ํ์์ ์ง์ํ๋ฉฐ ์ต์ ํ๋ ๋ ๋๋ง ์์ง์ ์ ๊ณตํ๋ ํ๋ก๊ทธ๋จ
RGBAD ์ด๋ฏธ์ง: RGB ์ด๋ฏธ์ง์ ๊น์ด(Depth)์ ์ํ(Alpha) ์ฑ๋์ด ์ถ๊ฐ๋ ํ์์ ์ด๋ฏธ์ง
20๊ฐ์ ๋๋คํ ์นด๋ฉ๋ผ ๊ฐ๋์์ ๊ฐ 3D ๋ชจ๋ธ์ ๊ฒฝ๊ณ ์์(bounding cube)๋ก ์ ๊ทํํ๊ณ ํ์ค ์กฐ๋ช ์ค์ ์ ๊ตฌ์ฑํ ํ, blender์ ๋ด์ฅ๋ ์ค์๊ฐ ๋ ๋๋ง ์์ง์ ์ฌ์ฉํ์ฌ RGBAD ์ด๋ฏธ์ง๋ฅผ ๋ด๋ณด๋๋ค.
๊ฐ ๊ฐ์ฒด๋ฅผ ๋ ๋๋ง์ ์ฌ์ฉํด ์์์ด ์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก ๋ณํํ๋ค.
๊ฐ RGBAD ์ด๋ฏธ์ง์ ๊ฐ ํฝ์ ์ ๋ํ ์ ์ ๊ณ์ฐํ์ฌ ๊ฐ ๊ฐ์ฒด์ ๋ํ ๋ฐ์ง๋(dense) ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ๊ตฌ์ฑํ๋ค.
์ด๋ฌํ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ์ผ๋ฐ์ ์ผ๋ก ๊ณ ๋ฅด๊ฒ ๋ถํฌ๋์ด ์์ง ์์ผ๋ฏ๋ก, ๊ฐ์ฅ ๋จผ ์ ์ํ๋ง์ ์ฌ์ฉํ์ฌ 4K ์ ์ ๊ท ์ผํ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ๋ค.
๋ ๋๋ง์์ ์ง์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ๊ตฌ์ฑํจ์ผ๋ก์จ, 3D ๋ฉ์ฌ์์ ์ง์ ์ ์ ์ํ๋งํ ๋ ๋ฐ์ํ ์ ์๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ํผํ ์ ์์๋ค. (๋ชจ๋ธ ๋ด๋ถ์ ํฌํจ๋ ์ ์ ์ํ๋งํ๋ ๋ฌธ์ , ์ด์ํ ํ์ผ ํ์์ 3D ๋ชจ๋ธ๋ก ์ธํ ๋ฌธ์ )
์ ํ์ง ๋ชจ๋ธ์ ์ ๊ฑฐํ๊ธฐ ์ํด ๋ค์ํ ํด๋ฆฌ์คํฑ์ ์ฌ์ฉํ๋ค.
๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋์ SVD๋ฅผ ๊ณ์ฐํ๊ณ , ๊ฐ์ฅ ์์ ํน์ด๊ฐ์ด ์ผ์ ์๊ณ๊ฐ(threshold) ์ด์์ธ ๊ฒฝ์ฐ์๋ง ์ ์งํจ์ผ๋ก์จ ํํํ ๊ฐ์ฒด๋ฅผ ์ ๊ฑฐํ๋ค.
๋ค์์ผ๋ก, CLIP ํน์ฑ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ ํด๋ฌ์คํฐ๋ง ํ๋ค. (์ผ๋ถ ํด๋ฌ์คํฐ๋ ๋ง์ ์ ํ์ง ๋ชจ๋ธ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ํฌํจํ๋ ๋ฐ๋ฉด, ๋ค๋ฅธ ํด๋ฌ์คํฐ๋ ๋ ๋ค์ํ๊ฑฐ๋ ํด์ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์)
ํด๋ฌ์คํฐ๋ฅผ ์ฌ๋ฌ ๊ฐ์ง ํ์ง์ ๋ฒํท์ผ๋ก ๋๋๊ณ , ์ต์ข ๋ฐ์ดํฐ์ ์ผ๋ก์ ๊ฒฐ๊ณผ ๋ฒํท์ ๊ฐ์ค์น ํผํฉ์ ์ฌ์ฉํ๋ค.
4.2 View Synthesis GLIDE Model#
โํ ์คํธ ์บก์ โ์ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ โํฉ์ฑ ๋ทฐโ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ
4.3์์ ์ค๋ช ํ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ชจ๋ธ์ ๋ชจ๋ ๋์ผํ ๋ ๋๋ฌ์ ๋์ผํ ์กฐ๋ช ์ค์ ์ ์ฌ์ฉํ์ฌ ์์ฑ๋ ๋ฐ์ดํฐ์ ์ ๋ ๋๋ง๋ ๋ทฐ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ๋๋ค.
๋ฐ๋ผ์ ํด๋น ํํธ์์๋ ๋ฐ์ดํฐ์ ์ ๋ถํฌ์ ์ผ์นํ๋ 3D ๋ ๋๋ฅผ ๋ช ์์ ์ผ๋ก ์์ฑํ๊ณ ์ ํ์๋ค.
์ด๋ฅผ ์ํด GLIDE๋ฅผ ์๋์ ๋ฐ์ดํฐ์ ๊ณผ ์ ์๋ค์ 3D ๋ ๋๋ง ๋ฐ์ดํฐ์ ์ ํผํฉํ์ฌ ํ์ธํ๋ ํ์๋ค.
์ ์๋ค์ 3D ๋ ๋๋ง ๋ฐ์ดํฐ์ ์ด ์๋ GLIDE ํ์ต์ ์ ๋นํด ์๊ธฐ ๋๋ฌธ์ 3D ๋ ๋๋ง ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ์ง๋ฅผ ์ํ๋งํ๋ ๋น์จ์ 5%๋ก๋ง ์ค์ ํ๊ณ , ๋๋จธ์ง 95%๋ ์๋์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค.
๋ฐ๋ณต(iterations) ํ์๋ 100,000๋ฒ์ ์ค์ ํ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ด 3D ๋ฐ์ดํฐ์ ์ ์ฌ๋ฌ ๋ฒ ๊ฑฐ์น๋ ํ์ต์ ์งํํ์์ ์๋ฏธํ๋ค. (๋จ, ๋์ผํ ๋ ๋๋ง๋ ์์ ์ ๋ ๋ฒ ์ฌ์ฉํ์ง ์์๋ค.)
ํ ์คํธ ์๊ฐ์๋ ํญ์ ๋ถํฌ ๋ด ๋ ๋๋ฅผ ์ํ๋งํ๊ธฐ ์ํด, ๋ชจ๋ 3D ๋ ๋์ ํ ์คํธ ํ๋กฌํํธ์ ํน๋ณํ ํ ํฐ์ ์ถ๊ฐํ์ฌ ์ด ํ ํฐ์ ์ฌ์ฉํ์ฌ ์ํ๋ง์ ์ํํ์๋ค.
4.3 Point Cloud Diffusion#
โํฉ์ฑ ๋ทฐโ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ โ๋๋ต์ ์ธ(coarse) ํฌ์ธํธ ํด๋ผ์ฐ๋(1024๊ฐ์ ํฌ์ธํธ)โ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ
๋ํจ์ ์ ์ด์ฉํด ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด 3D Shape Generation and Completion through Point-Voxel Diffusion์์ ์ฌ์ฉํ ํ๋ ์์ํฌ๋ฅผ ํ์ฅํ์ฌ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ฐ ํฌ์ธํธ์ RGB ์์์ ํฌํจ์์ผฐ๋ค.
ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ K x 6 ํํ์ ํ ์๋ก ๋ํ๋ด๋ฉฐ (K: ํฌ์ธํธ ์), ๋ด๋ถ ์ฐจ์์ (x,y,z) ์ขํ์ (R,G,B) ์์์ ํฌํจํ๋ค.
๋ชจ๋ ์ขํ์ ์์์ [-1, 1] ๋ฒ์๋ก ์ ๊ทํ ๋๋ค.
K x 6 ํํ์ ๋๋คํ ๋ ธ์ด์ฆ์์ ์์ํ์ฌ ์ด๋ฅผ ์ ์ง์ ์ผ๋ก ๋๋ ธ์ด์งํ์ฌ ํ ์๋ฅผ ์ง์ ์์ฑํ๋ค.
๊ธฐ์กด 3D ์ ์ฉ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ ์ด์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ, ๋ณธ ๋ ผ๋ฌธ์์๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ๋ชจ๋ธ์ ์ด๋ฏธ์ง, ํ์ ์คํ t, ๋ ธ์ด์ฆ๊ฐ ์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ \(x_t\)๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ \(\epsilon\)๊ณผ \(\sum\)์ ์์ธกํ๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ
ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ฐ ํฌ์ธํธ๋ฅผ ์ถ๋ ฅ ์ฐจ์์ดย D์ธ ์ ํ ๋ ์ด์ด(linear layer)์ ๋ฃ์ดย KรD ์ ๋ ฅ ํ ์๋ฅผ ์ป๊ณ ๋ชจ๋ธ์ ์ ๋ ฅ ์ปจํ ์คํธ๋ก ์ฌ์ฉํ๋ค. ๋ํ ์์ MLP์ ํ์์คํ t๋ฅผ ๋ฃ์ด ์ปจํ ์คํธ ์์ ์ถ๊ฐํ ๋ค๋ฅธ D์ฐจ์ ๋ฒกํฐ๋ฅผ ์ป๋๋ค.
์ด๋ฏธ์ง๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ ๋ ฅ ๋ฐ๊ธฐ ์ํด, ์ฌ์ ํ์ต๋ ViT-L/14 CLIP ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅํ๊ณ ์ด CLIP ๋ชจ๋ธ์ ๋ง์ง๋ง ๋ ์ด์ด์ ์๋ฒ ๋ฉ์ ๊ฐ์ ธ์จ๋ค. (shape: 256xDโ), ์ด๋ฅผ ์ ํ ํฌ์ฌ(lienarly project)ํ์ฌ 256xD shape์ ๋ ๋ค๋ฅธ ํ ์๋ฅผ ์ป๊ณ ์ด๋ฅผ ํธ๋์คํฌ๋จธ ์ปจํ ์คํธ ์์ ์ถ๊ฐํ๋ค. โ ์ด ๋ฐฉ๋ฒ์ด ๋จ์ผ CLIP ์ด๋ฏธ์ง ๋๋ ํ ์คํธ ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์ฐ์ํ๋ค.
์ต์ข ์ ๋ ฅ ์ปจํ ์คํธ๋ (K+257) x D์ shape๊ฐ ๋๋ค. ๊ธธ์ด K์ ์ต์ข ์ถ๋ ฅ ์ํ์ค๋ฅผ ์ป๊ธฐ ์ํด ์ต์ข ํ ํฐ K๊ฐ๋ฅผ ๊ฐ์ ธ์ค๊ณ ์ด๋ฅผ ํ๋ก์ ์ ํ์ฌ ์ ๋ ฅ ํฌ์ธํธ K๊ฐ์ ๋ํ ฮต์ ฮฃ ์์ธก์ ์ป๋๋ค.
์ด ๋ชจ๋ธ์์๋ positional encoding์ ์ฌ์ฉํ์ง ์๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ ์์ฒด๋ ์ ๋ ฅ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ํด ์์ด ๋ถ๋ณ(permutation-invariant)ํ๋ค.
4.4 Point Cloud Upsampler#
์ด๋ฏธ์ง ๋ํจ์ ๋ชจ๋ธ์์์ ๊ณ์ธต ๊ตฌ์กฐ
์ด๋ฏธ์ง ๋ํจ์ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๊ฐ์ฅ ์ข์ ํ์ง์ ์ผ๋ฐ์ ์ผ๋ก ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์์ผ๋ก ๋ฌ์ฑ๋๋ค.
์ด ๋ฐฉ์์์๋ ์ ํด์๋์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ถ๋ ฅ์ ์์ฑํ ํ, ์ด๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ์ด ์ ์ํํ๋ค.
โ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์์ฑ์ ์ด ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉ
ํฌ์ธํธ ํด๋ผ์ฐ๋ ์์ฑ์์์ ๊ณ์ธต ๊ตฌ์กฐ
ํฐ ๋ฒ ์ด์ค ๋ชจ๋ธ๋ก 1K ํฌ์ธํธ๋ฅผ ์์ฑํ ํ, ์์ ์ ์ํ๋ง ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ 4K ํฌ์ธํธ๋ก ์ ์ํ๋ง ํ๋ค.
๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ๊ฐ์ ๋, 4K ํฌ์ธํธ๋ฅผ ์์ฑํ๋ ๋ฐ์๋ 1K ํฌ์ธํธ๋ฅผ ์์ฑํ ๋๋ณด๋ค ๋ค ๋ฐฐ ๋ ๋ง์ ์ฐ์ฐ์ ํ์๋ก ํ๋ค.
์ ์ํ๋ฌ
์ ์ํ๋ฌ๋ ๋ฒ ์ด์ค ๋ชจ๋ธ๊ณผ ๋์ผํ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ค.
๋ชจ๋ธ์ ์ ํด์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ชจ๋ธ๊ณผ ๋์ผํ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ค.
์ ํด์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ ๋ ฅ ๋ฐ๊ธฐ ์ํ ์ถ๊ฐ ์ปจ๋์ ๋ ํ ํฐ์ด ์๋ค.
1K ํฌ์ธํธ๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ ๋ ฅ ๋ฐ์ ์ถ๊ฐ๋ก 3K ํฌ์ธํธ๋ฅผ ์์ฑํ์ฌ ์ ํด์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์ถ๊ฐํ๋ค.
\(x_t\)์ ์ฌ์ฉ๋ ๋ ์ด์ด๊ฐ ์๋ ๋ณ๋์ ์ ํ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ํตํด ์ ํด์๋ ํฌ์ธํธ๋ฅผ ์ ๋ฌํ์ฌ, ๋ชจ๋ธ์ด positional encoding์ ์ฌ์ฉํ ํ์ ์์ด ์กฐ๊ฑด๋ถ ์ ๋ณด์ ์๋ก์ด ํฌ์ธํธ๋ฅผ ๊ตฌ๋ณํ ์ ์๋๋ก ํ๋ค.
4.5 Producing Meshes#
๋ ๋๋ง ๊ธฐ๋ฐ ํ๊ฐ๋ฅผ ์ํด ์์ฑ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ง์ ๋ ๋๋งํ์ง ์๋๋ค.
๋์ , ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ํ ์ค์ฒ๊ฐ ์ ํ์ง ๋ฉ์ฌ๋ก ๋ณํํ๊ณ Blender๋ฅผ ์ฌ์ฉํด ์ด๋ฌํ ๋ฉ์ฌ๋ฅผ ๋ ๋๋งํ๋ค.
ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ๋ฉ์ฌ๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋๋๋ก ์ด๋ ต๊ณ , ๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ด ์์ฑํ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ์ข ์ข ๊ท ์ด, ์ด์์น ๋๋ ๊ธฐํ ์ ํ์ ๋ ธ์ด์ฆ๋ฅผ ๊ฐ์ง๊ณ ์์ด ๋์ฑ ์ด๋ ต๋ค.
ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ๋ฉ์ฌ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ฌ์ ํ์ต๋ SAP๋ชจ๋ธ์ ์ฌ์ฉํด๋ดฃ์ผ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์กด์ฌํ๋ ํฐ ๋ถ๋ถ์ด๋ ์ค์ํ ์ธ๋ถ ์ฌํญ์ ์์ด๋ฒ๋ฆฌ๋ ๊ฒฝ์ฐ๊ฐ ์์๋ค.
๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ํ๊ท(regression) ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ signed distance field๋ฅผ ์์ธกํ๊ณ , ์ด๋ฅผ merching cube ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ๋ฉ์ฌ๋ฅผ ์ถ์ถํ๋ค.
๊ทธ๋ฐ ๋ค์ ์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ ์ ์์ ์ฌ์ฉํ์ฌ ๋ฉ์ฌ์ ๊ฐ ๋ฒํ ์ค์ ์์ ํ ๋นํ๋ค.
5. Results#
ํ๊ฐ ์งํ: CLIP R-Precision, P-IS, P-FID
CLIP R-Precision
ํน์ ๊ฐ์ฒด๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ฌ ๋ชจ๋ธ์ด ํ ์คํธ ์ค๋ช ๊ณผ ์ผ๋ง๋ ์ ์ผ์นํ๋์ง๋ฅผ ํ๊ฐํ๋ ์งํ
๊ณ์ฐํ๋ ๊ณผ์
์์ฑ๋ ์ด๋ฏธ์ง์ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก CLIP ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ฐ ์ด๋ฏธ์ง์ ํ ์คํธ ์๋ฒ ๋ฉ์ ๊ณ์ฐํ๋ค.
CLIP ๋ชจ๋ธ์์ ๊ณ์ฐ๋ ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ค.
์ ์ฌ๋๊ฐ ๊ฐ์ฅ ๋์ ์์ R๊ฐ์ ์ด๋ฏธ์ง ์ค ์ค์ ๋ก ๋ง๋ ์ด๋ฏธ์ง์ ๋น์จ์ ๊ณ์ฐํ๋ค.
P-IS, P-FID
ํฌ์ธํธ ํด๋ผ์ฐ๋์ Inception Score์ FID๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์์ ๋์ ํ ์งํ
์์ ๋ PointNet++ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ํน์ง์ ์ถ์ถํ๊ณ ํด๋์ค ํ๋ฅ ์ ์์ธก
5.1 Model Scaling and Ablations#
์ ์๋ค์ ๋ค์๊ณผ ๊ฐ์ ๋ฒ ์ด์ค ๋ชจ๋ธ์ ๋ํ์ฌ ํ์ต ์ค์ ์์ฑํ ์ํ๋ค๋ก ํ๊ฐํ์๋ค.
40M (uncond.): ์ด๋ ํ ์กฐ๊ฑด ์ ๋ณด๋ ์๋ ์์ ๋ชจ๋ธ
40M (text vec.): ํ ์คํธ ์บก์ ์๋ง ์์กดํ๋ ์์ ๋ชจ๋ธ (์ด๋ฏธ์ง ์ฌ์ฉ x), ํ์ธํ๋๋ GLIDE ๋ชจ๋ธ ํ์ฉ x
40M (image vec.): ๋ ๋๋ง๋ ์ด๋ฏธ์ง์ CLIP ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ์์กดํ๋ ์์ ๋ชจ๋ธ, ๋จ์ผ CLIP ์๋ฒ ๋ฉ ์ฌ์ฉ
40M: CLIP ์ ์ฌ ๊ทธ๋ฆฌ๋(latent grid)๋ฅผ ํตํ ์ ์ฒด ์ด๋ฏธ์ง ์กฐ๊ฑด์ ์ฌ์ฉํ๋ ์์ ๋ชจ๋ธ
300M: CLIP ์ ์ฌ ๊ทธ๋ฆฌ๋๋ฅผ ํตํ ์ ์ฒด ์ด๋ฏธ์ง ์กฐ๊ฑด์ ์ฌ์ฉํ๋ ์ค๊ฐ ๋ชจ๋ธ
1B: CLIP ์ ์ฌ ๊ทธ๋ฆฌ๋๋ฅผ ํตํ ์ ์ฒด ์ด๋ฏธ์ง ์กฐ๊ฑด์ ์ฌ์ฉํ๋ ํฐ ๋ชจ๋ธ
ํ๊ฐ ๊ฒฐ๊ณผ๋ ์๋ ๊ทธ๋ํ์ ๊ฐ๋ค.
๊ฒฐ๊ณผ
ํ ์คํธ ์กฐ๊ฑด๋ง ์ฌ์ฉํ๊ณ ํ ์คํธ์์ ์ด๋ฏธ์ง๋ก์ ๋จ๊ณ๊ฐ ์๋ ๊ฒฝ์ฐ CLIP R-Precision์ด ๋งค์ฐ ๋์๊ฒ ๋์ค๋ ๊ฒ์ ๋ฐ๊ฒฌ
์ด๋ฏธ์ง๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ ๋ ๋จ์ผ CLIP ์๋ฒ ๋ฉ๋ณด๋ค ์๋ฒ ๋ฉ ๊ทธ๋ฆฌ๋๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ฑ๋ฅ์ด ๋ ๋์ ๊ฒ์ ๋ฐ๊ฒฌ โ ์กฐ๊ฑด ์ด๋ฏธ์ง์ ๋ํด ๋ ๋ง์ (๊ณต๊ฐ์ ์ธ) ์ ๋ณด๋ฅผ ๋ณด๋ ๊ฒ์ด ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ชจ๋ธ์ ์ด์ ์ด ์์์ ์์ฌ
๋ชจ๋ธ์ ์ค์ผ์ผ์ ์ฆ๊ฐ์ํค๋ฉด P-FID ์๋ ด ์๋๊ฐ ํฅ์๋๊ณ ์ต์ข CLIP R-Precision์ด ์ฆ๊ฐํ๋ ๊ฒ์ ๋ฐ๊ฒฌ
5.2 Qualitative Results#
ํฌ์ธํธ ํด๋ผ์ฐ๋ ์์ฑ ๊ฒฐ๊ณผ
PointยทE ๋ชจ๋ธ์ด ๋ณต์กํ ํ๋กฌํํธ์ ๋ํด ์ข ์ข ์ผ๊ด๋ ๊ณ ํ์ง์ 3D ํ์์ ์์ฑํ ์ ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
๋๋๋ก ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ํจ์ ๋ชจ๋ธ์ ์กฐ๊ฑดํ๋ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ์ง ๋ชปํ๊ฑฐ๋ ์์ธกํ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ์๋ค. ์ด๋ ์ฃผ๋ก ๋ ๊ฐ์ง ๋ฌธ์ ์ค ํ๋๋ก ์ธํด ๋ฐ์ํ๋ค.
๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ๋ํ๋ ๊ฐ์ฒด์ ๋ชจ์์ ์๋ชป ํด์ํ๋ ๊ฒฝ์ฐ
๋ชจ๋ธ์ด ์ด๋ฏธ์ง์์ ๊ฐ๋ ค์ง ํ์์ ์ผ๋ถ๋ฅผ ์๋ชป ์ถ๋ก ํ๋ ๊ฒฝ์ฐ
5.3 Comparison to Other Methods#
CLIP-R-Precision ์งํ๋ฅผ ์ด์ฉํ์ฌ PointยทE๋ฅผ ๋ค๋ฅธ 3D ์์ฑ ๊ธฐ์ ๊ณผ ๋น๊ตํ๋ค.
PointยทE๋ state-of-the-art ๊ธฐ์ (DreamFusion)๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ง ์์ง๋ง, ์ด ๋ถ์ผ์น์ ์ผ๋ถ๋ฅผ ์ค๋ช ํ ์ ์๋ ์ด ํ๊ฐ์ ๋ ๊ฐ์ง ๋ฏธ๋ฌํ ์ ์ ์ฃผ๋ชฉํด์ผ ํ๋ค.
DreamFusion๊ณผ ๊ฐ์ ๋ฉํฐ๋ทฐ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ PointยทE๋ ํ ์คํธ ํ๋กฌํํธ์ ์ผ์นํ๋๋ก ๋ชจ๋ ๋ทฐ๋ฅผ ๋ช ์์ ์ผ๋ก ์ต์ ํํ์ง ์๋๋ค. ํน์ ๊ฐ์ฒด๊ฐ ๋ชจ๋ ๊ฐ๋์์ ์ฝ๊ฒ ์๋ณ๋์ง ์์ ์ ์๊ธฐ ๋๋ฌธ์ CLIP R-Precision์ด ๋ฎ์์ง ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ ๋ ๋๋ง ์ ์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ ์ฒ๋ฆฌํด์ผ ํ๋๋ฐ, ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ๋ฉ์ฌ๋ก ๋ณํํ๋ ๊ฒ์ ์ด๋ ค์ด ๋ฌธ์ ๋ค. ๋ณธ ๋ ผ๋ฌธ์ด ์ฌ์ฉํ๋ ์ ๊ทผ ๋ฐฉ์์ ๋๋๋ก ํฌ์ธํธ ํด๋ผ์ฐ๋ ์์ฒด์ ์๋ ์ ๋ณด๋ฅผ ์์ ์ ์๋ค.
PointยทE๋ ์ต์ ํ ํฌ๋๋ณด๋ค ์ด ํ๊ฐ์์ ์ฑ๋ฅ์ด ์ข์ง ์์ง๋ง ์งง์ ์๊ฐ ๋ด์ ์ํ์ ์์ฑํ๋ค.
์ด๋ฅผ ํตํด ๋ณด๋ค ์ค์ฉ์ ์ผ๋ก ์์ฉ ํ๋ก๊ทธ๋จ์ ๋ง๋ค๊ฑฐ๋ ๋ง์ ๊ฐ์ฒด๋ฅผ ์ํ๋งํ๊ณ ์ต์์ ๊ฐ์ฒด๋ฅผ ํด๋ฆฌ์คํฑ์ ๋ฐ๋ผ ์ ํํ์ฌ ๊ณ ํ์ง 3D ๊ฐ์ฒด๋ฅผ ์ฐพ์ ์ ์๋ค.
6. Limitations and Future Work#
ํฉ์ฑ ๋ ๋๋ง์ ํ์๋ก ํ๋ค. โ ํฅํ ์ค์ ์ธ๊ณ ์ด๋ฏธ์ง๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ 3D ์์ฑ๊ธฐ๋ฅผ ํ๋ จ์์ผ ํด๊ฒฐํ ์ ์์ ๊ฒ
์์์ด ์๋ 3D ํํ๋ฅผ ์์ฑํ์ง๋ง, ์ด ๊ณผ์ ์ ๋น๊ต์ ๋ฎ์ ํด์๋์ 3D ํ์(ํฌ์ธํธ ํด๋ผ์ฐ๋)๋ก ์ด๋ฃจ์ด์ง๋ค. ํ์์ด๋ ์ง๊ฐ์ ์ธ๋ถ ์ฌํญ์ ์บก์ฒํ์ง ๋ชปํ๋ค. โ ๋ฉ์ฌ๋ NeRF์ ๊ฐ์ ๊ณ ํด์๋ 3D ํํ์ ์์ฑํ๋๋ก ํ์ฅํ๋ฉด ํด๊ฒฐํ ์ ์์ ๊ฒ
์ต์ ํ ๊ธฐ๋ฐ ๊ธฐ์ (optimization-based techniques)์ ์ด๊ธฐํํ์ฌ ์ด๊ธฐ ์๋ ด ์๋๋ฅผ ๋์ด๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ค.
์ด ๋ชจ๋ธ์ด DALLยทE 2 ์์คํ ๊ณผ ๋ง์ ์ ํ ์ฌํญ์ ๊ณต์ ํ ๊ฒ์ผ๋ก ์์ํ๋ค. (๋ฐ์ดํฐ์ ์์ ์ผ๊ธฐ๋ ๋ง์ ํธํฅ์ ํฌํจํ ์ ์๋ค)
๋ชจ๋ธ์ด ์์ฑํ 3D ๋ชจ๋ธ์ด ์ค์ ๋ก ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ์๋ ๋, ๊ทธ ์ ํ์ด ์ํํ ์ ์๋ ๋ฌผ์ฒด์ ์ฒญ์ฌ์ง์ ์์ฑํ ์ ์๋ค.
7. Conclusion#
PointยทE๋ ํฉ์ฑ๋ ๋ทฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์กฐ๊ฑดํ๋ ์์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ๋ ํ ์คํธ ์กฐ๊ฑด ํฉ์ฑ ์์คํ ์ด๋ค.
PointยทE๊ฐ ํ ์คํธ ํ๋กฌํํธ์ ์ํด ์กฐ๊ฑดํ๋ ๋ค์ํ๊ณ ๋ณต์กํ 3D ํ์์ ํจ์จ์ ์ผ๋ก ์์ฑํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ์์ด ํ ์คํธ์์ 3D๋ก์ ํฉ์ฑ ๋ถ์ผ์์์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ์ ์์์ ์ผ๋ก ๊ธฐ์ฌํ ์ ์๊ธฐ๋ฅผ ํฌ๋งํ๋ค.