Information

Point-E: A System for Generating 3D Point Clouds from Complex Prompts (Arxiv 2022)#

Abstract#

  • ์ œ์•ˆ ๋ฐฐ๊ฒฝ

    • ์ตœ๊ทผ ํ…์ŠคํŠธ ์กฐ๊ฑด๋ถ€ 3D ๊ฐ์ฒด ์ƒ์„ฑ ๊ธฐ์ˆ (text-conditional 3D object generation)์ด ๋†€๋ผ์šด ๋ฐœ์ „์„ ๋ณด์ด๊ณ  ์žˆ๋‹ค.

    • ํ•˜์ง€๋งŒ, SOTA ๋ชจ๋ธ๋“ค์€ ์—ฌ์ „ํžˆ ํ•˜๋‚˜์˜ ์ƒ˜ํ”Œ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ GPU ์‹œ๊ฐ„์„ ์š”๊ตฌํ•˜๊ณ  ์žˆ๋‹ค.

    • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹จ์ผ GPU์—์„œ 1~2๋ถ„๋งŒ์— 3D ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” 3D ๊ฐ์ฒด ์ƒ์„ฑ์„ ์œ„ํ•œ ๋ฐฉ๋ฒ•์„ ํƒ์ƒ‰ํ•œ๋‹ค.

  • ์ ‘๊ทผ๋ฒ•

    • ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์ผ ํ•ฉ์„ฑ ๋ทฐ๋ฅผ ์ƒ์„ฑํ•œ ๋‹ค์Œ ๋‘ ๋ฒˆ์งธ ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ 3D ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

  • ๊ฒฐ๊ณผ

    • ์ƒ˜ํ”Œ ํ’ˆ์งˆ ์ธก๋ฉด์—์„œ SOTA ์„ฑ๋Šฅ์ด ์•„๋‹ˆ์ง€๋งŒ, ์ƒ˜ํ”Œ๋ง ์†๋„๊ฐ€ 1~2๋ฐฐ ๋” ๋น ๋ฅด๋‹ค.

1. Introduction#

  • Text-to-image ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ text-to-vide/3D๋กœ์˜ ๋ฐœ์ „

    • ์ตœ๊ทผ text-to-image ์ƒ์„ฑ ๋ชจ๋ธ์ด ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋ช‡ ์ดˆ๋งŒ์— ์ž์—ฐ์–ด์—์„œ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

    • ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ์— ์˜๊ฐ์„ ๋ฐ›์•„ ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ๋Š” ๋น„๋””์˜ค๋‚˜ 3D ๊ฐ์ฒด์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์—์„œ์˜ ํ…์ŠคํŠธ ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ์„ ํƒ์ƒ‰ํ•˜๊ณ  ์žˆ๋‹ค.

    • ๋ณธ ๋…ผ๋ฌธ๋„ text-to-3D ์ƒ์„ฑ ๋ฌธ์ œ์— ์ค‘์ ์„ ๋‘”๋‹ค.

  • ์ตœ๊ทผ text-to-3D ํ•ฉ์„ฑ์˜ ๋ถ„๋ฅ˜

    • ์ตœ๊ทผ text-to-3D ํ•ฉ์„ฑ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์Œ์˜ ๋‘ ์นดํ…Œ๊ณ ๋ฆฌ ์ค‘ ํ•˜๋‚˜์— ์†ํ•œ๋‹ค.

      1. ์Œ์„ ์ด๋ฃฌ(paired)(ex: text, 3D) ๋ฐ์ดํ„ฐ ๋˜๋Š” ๋ ˆ์ด๋ธ”์ด ์—†๋Š”(unlabeld) 3D ๋ฐ์ดํ„ฐ์—์„œ ์ƒ์„ฑ ๋ชจ๋ธ์„ ์ง์ ‘(directly) ํ•™์Šต ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•

        1. ์žฅ์ : ๊ธฐ์กด ์ƒ์„ฑ ๋ชจ๋ธ๋ง ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ™œ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ์„ ํšจ์œจ์ ์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

        2. ๋‹จ์ : ๋Œ€๊ทœ๋ชจ 3D ๋ฐ์ดํ„ฐ์…‹์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์–‘ํ•˜๊ณ  ๋ณต์žกํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋กœ ํ™•์žฅํ•˜๊ธฐ ์–ด๋ ต๋‹ค. โ†’ ๋ฐ์ดํ„ฐ์…‹์˜ ํ•œ๊ณ„, ํ™•์žฅ์„ฑ์˜ ์–ด๋ ค์›€

      2. ์‚ฌ์ „ ํ•™์Šต๋œ text-to-image ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฏธ๋ถ„๊ฐ€๋Šฅํ•œ(differentiable) 3D ํ‘œํ˜„๋ฒ•๋“ค(representations)์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•

        1. ์žฅ์ : ๋ณต์žกํ•˜๊ณ  ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

        2. ๋‹จ์ :

          1. ๊ฐ ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด ์ตœ์ ํ™” ๊ณผ์ •์„ ๊ฑฐ์ณ์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆด ์ˆ˜ ์žˆ๋‹ค. ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ์ตœ์ ํ™” ํ”„๋กœ์„ธ์Šค๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

          2. ๊ฐ•๋ ฅํ•œ 3D prior๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์— ์˜๋ฏธ ์žˆ๊ฑฐ๋‚˜ ์ผ๊ด€๋œ 3D ๊ฐœ์ฒด์— ํ•ด๋‹นํ•˜์ง€ ์•Š๋Š” local minima์— ๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค.

  • ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ๋ฒ•

    Point_E_01

    Fig. 669 Point-E ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ์š”#

    • Text-to-image ๋ชจ๋ธ๊ณผ image-to-3D ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‘์นดํ…Œ๊ณ ๋ฆฌ์˜ ์žฅ์ ์„ ํ•ฉ์น˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

      • ๋ณธ ๋…ผ๋ฌธ์˜ text-to-image ๋ชจ๋ธ

        • ๋Œ€๊ทœ๋ชจ(ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€)์Œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•˜๊ณ  ๋ณต์žกํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋”ฐ๋ฅผ ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.

        • 3D ๋ Œ๋”๋ง์— ๋Œ€ํ•ด ํŒŒ์ธํŠœ๋‹๋œ GLIDE ๋ฒ„์ „์„ ์‚ฌ์šฉํ•œ๋‹ค.

      • ๋ณธ ๋…ผ๋ฌธ์˜ image-to-3D ๋ชจ๋ธ

        • ์†Œ๊ทœ๋ชจ์˜(์ด๋ฏธ์ง€,3D)์Œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ๋‹ค.

        • RGB ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ์Šคํƒ์„ ์‚ฌ์šฉํ•œ๋‹ค. (์ƒˆ๋กœ์šด transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜ ์‚ฌ์šฉ)

        • ์ƒ์„ฑ๋œ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์—์„œ ๋ฉ”์‰ฌ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ํšŒ๊ท€ ๊ธฐ๋ฐ˜(regression-based) ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.

    • ๋จผ์ € text-to-image ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ์ƒ˜ํ”Œ๋ง๋œ ์ด๋ฏธ์ง€๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋„ฃ์–ด 3D ๊ฐ์ฒด๋ฅผ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค.

    • ์ด ๋‘ ๋‹จ๊ณ„ ๋ชจ๋‘ ๋ช‡ ์ดˆ ๋‚ด์— ์ˆ˜ํ–‰๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ์ตœ์ ํ™” ๊ณผ์ •์„ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๋Š”๋‹ค.

  • ๋ณธ ๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ

    • ๊ฐ„๋‹จํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ณต์žกํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€๋„ ์ผ์น˜ํ•˜๋Š” ์ปฌ๋Ÿฌ 3D ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

    โ†’ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ƒ์„ฑํ•œ๋‹ค๋Š” ์˜๋ฏธ์—์„œ ๋ณธ ๋…ผ๋ฌธ์˜ ์‹œ์Šคํ…œ์„ Point E๋ผ๊ณ  ๋ช…์นญํ•˜์˜€๋‹ค.

2. Background#

  • ๋””ํ“จ์ „ ๋ชจ๋ธ ๊ฐœ์š”:

    • ์ ์ง„์ ์œผ๋กœ Gaussian ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ˜•ํ•œ๋‹ค.

    • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” Ho et al. (2020)์˜ Gaussian ํ™•์‚ฐ ์„ค์ •์„ ๋”ฐ๋ฅธ๋‹ค.

  • ๋…ธ์ด์ฆˆ ํ”„๋กœ์„ธ์Šค

    • ๋…ธ์ด์ฆˆ ํ”„๋กœ์„ธ์Šค๋Š” ์‹œ๊ฐ„ ๋‹จ๊ณ„ t๋งˆ๋‹ค ์‹ ํ˜ธ์— Gaussian ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค.

    • ์ตœ์ข… ๋‹จ๊ณ„์—์„œ๋Š” ์ƒ˜ํ”Œ์ด ๊ฑฐ์˜ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๊ฒŒ ๋œ๋‹ค.

  • ์—ญ ๋…ธ์ด์ฆˆ ํ”„๋กœ์„ธ์Šค

    • ๋žœ๋˜ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ \(x_T\)์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ ํ”„๋กœ์„ธ์Šค๋ฅผ ์—ญ์œผ๋กœ ์ง„ํ–‰ํ•˜์—ฌ ์žก์Œ์ด ์—†๋Š” ์ƒ˜ํ”Œ \(x_0\)์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๋ชจ๋ธ ํ•™์Šต

    • q(xtโˆ’1|xt)๋ฅผ ์‹ ๊ฒฝ๋ง pฮธ(xtโˆ’1|xt)๋กœ ๊ทผ์‚ฌํ•˜์—ฌ ํ•™์Šตํ•œ๋‹ค.

    • Nichol & Dhariwal (2021)์€ ํ‰๊ท ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ถ„์‚ฐ๋„ ์˜ˆ์ธกํ•˜์—ฌ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์–ป์—ˆ๋‹ค.

  • ์ƒ˜ํ”Œ๋ง

    • ๋””ํ“จ์ „ ์ƒ˜ํ”Œ๋ง์€ ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹ ๊ด€์ ์—์„œ ์„ค๋ช…๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ SDE ๋ฐ ODE ํ•ด์„๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์—์„œ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

    • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” Karras et al. (2022)์˜ 2์ฐจ ODE ํ•ด์„๊ธฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  • ๊ฐ€์ด๋“œ ์ „๋žต

    • Dhariwal & Nichol (2021)์€ ๋ถ„๋ฅ˜๊ธฐ ๊ฐ€์ด๋˜์Šค(classifier guidance)๋ฅผ ๋„์ž…ํ•˜์—ฌ ์ƒ์„ฑ ์ถฉ์‹ค๋„๋ฅผ ๋†’์˜€๋‹ค.

    • Ho & Salimans (2021)์€ ๋ถ„๋ฅ˜๊ธฐ ์—†๋Š” ๊ฐ€์ด๋˜์Šค(classifier-free guidance)๋ฅผ ๋„์ž…ํ•˜์—ฌ ์กฐ๊ฑด๋ถ€ ์ •๋ณด๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์‚ญ์ œํ•œ๋‹ค.

    • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํ•™์Šต ์‹œ ๋“œ๋กญ ํ™•๋ฅ  0.1์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๊ธฐ์ˆ ์„ ์ ์šฉํ•œ๋‹ค.

4. Method#

  • ํ…์ŠคํŠธ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ ๋‹จ์ผ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ง์ ‘ ์ƒ์„ฑํ•˜๋Š” ๋Œ€์‹  ์ƒ์„ฑ ํ”„๋กœ์„ธ์Šค๋ฅผ ์„ธ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆˆ๋‹ค.

    1. โ€˜ํ…์ŠคํŠธ ์บก์…˜โ€™์„ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ โ€˜ํ•ฉ์„ฑ ๋ทฐโ€™๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. โ†’ 4.2 ๋‚ด์šฉ

      1. GLIDE ๋ชจ๋ธ ์‚ฌ์šฉ

      2. ๋ Œ๋”๋ง๋œ 3D ๋ชจ๋ธ๋กœ ํŒŒ์ธํŠœ๋‹

    2. โ€˜ํ•ฉ์„ฑ ๋ทฐโ€™๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ โ€˜๋Œ€๋žต์ ์ธ(coarse) ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ(1024๊ฐœ์˜ ํฌ์ธํŠธ)โ€™๋ฅผ ์ƒ์„ฑํ•œ๋‹ค โ†’ 4.3 ๋‚ด์šฉ

      1. ์กฐ๊ฑด๋ถ€ ์ˆœ์—ด ๋ถˆ๋ณ€ ๋””ํ“จ์ „ ๋ชจ๋ธ(conditional, permutation invariant diffusion model) ์‚ฌ์šฉ

    3. โ€˜์ €ํ•ด์ƒ๋„ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์™€ ํ•ฉ์„ฑ ๋ทฐโ€™๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ โ€˜๊ณ ํ•ด์ƒ๋„ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ(4096 ํฌ์ธํŠธ)โ€™๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. โ†’ 4.4 ๋‚ด์šฉ

      1. 2์—์„œ ์‚ฌ์šฉ๋œ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ €ํ•ด์ƒ๋„ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ํ•˜๋Š” ๋” ์ž‘์€ ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ์‚ฌ์šฉ

  • ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ 3D ๋ชจ๋ธ๊ณผ ๊ด€๋ จ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚จ๋‹ค.

  • ๋ฐ์ดํ„ฐ์…‹์„ ๋ Œ๋”๋ง๋œ ๋ทฐ, ํ…์ŠคํŠธ ์„ค๋ช…, ๊ทธ๋ฆฌ๊ณ  ๊ฐ ์ ์— ๋Œ€ํ•œ RGB ์ƒ‰์ƒ์„ ํฌํ•จํ•˜๋Š” 3D ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค.

4-1. Dataset#

  • ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ 3D ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ ํ˜•์‹๊ณผ ํ’ˆ์งˆ์ด ๋ฐ์ดํ„ฐ์…‹ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋งค์šฐ ๋‹ค์–‘ํ–ˆ๊ณ , ๋” ๋†’์€ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ํ›„์ฒ˜๋ฆฌ ๋‹จ๊ณ„๊ฐ€ ํ•„์š”ํ–ˆ๋‹ค.

  • ํ›„์ฒ˜๋ฆฌ ๋‹จ๊ณ„

    1. Blender๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ์ผ๋ฐ˜์ ์ธ ํ˜•์‹(RGBAD ์ด๋ฏธ์ง€)์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

      1. Blender: ๋‹ค์–‘ํ•œ 3D ํ˜•์‹์„ ์ง€์›ํ•˜๋ฉฐ ์ตœ์ ํ™”๋œ ๋ Œ๋”๋ง ์—”์ง„์„ ์ œ๊ณตํ•˜๋Š” ํ”„๋กœ๊ทธ๋žจ

      2. RGBAD ์ด๋ฏธ์ง€: RGB ์ด๋ฏธ์ง€์— ๊นŠ์ด(Depth)์™€ ์•ŒํŒŒ(Alpha) ์ฑ„๋„์ด ์ถ”๊ฐ€๋œ ํ˜•์‹์˜ ์ด๋ฏธ์ง€

      3. 20๊ฐœ์˜ ๋žœ๋คํ•œ ์นด๋ฉ”๋ผ ๊ฐ๋„์—์„œ ๊ฐ 3D ๋ชจ๋ธ์„ ๊ฒฝ๊ณ„ ์ƒ์ž(bounding cube)๋กœ ์ •๊ทœํ™”ํ•˜๊ณ  ํ‘œ์ค€ ์กฐ๋ช… ์„ค์ •์„ ๊ตฌ์„ฑํ•œ ํ›„, blender์˜ ๋‚ด์žฅ๋œ ์‹ค์‹œ๊ฐ„ ๋ Œ๋”๋ง ์—”์ง„์„ ์‚ฌ์šฉํ•˜์—ฌ RGBAD ์ด๋ฏธ์ง€๋ฅผ ๋‚ด๋ณด๋ƒˆ๋‹ค.

    2. ๊ฐ ๊ฐ์ฒด๋ฅผ ๋ Œ๋”๋ง์„ ์‚ฌ์šฉํ•ด ์ƒ‰์ƒ์ด ์žˆ๋Š” ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

      1. ๊ฐ RGBAD ์ด๋ฏธ์ง€์˜ ๊ฐ ํ”ฝ์…€์— ๋Œ€ํ•œ ์ ์„ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ ๊ฐ์ฒด์— ๋Œ€ํ•œ ๋ฐ€์ง‘๋œ(dense) ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ๊ตฌ์„ฑํ•œ๋‹ค.

      2. ์ด๋Ÿฌํ•œ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณ ๋ฅด๊ฒŒ ๋ถ„ํฌ๋˜์–ด ์žˆ์ง€ ์•Š์œผ๋ฏ€๋กœ, ๊ฐ€์žฅ ๋จผ ์  ์ƒ˜ํ”Œ๋ง์„ ์‚ฌ์šฉํ•˜์—ฌ 4K ์ ์˜ ๊ท ์ผํ•œ ํด๋ผ์šฐ๋“œ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

      3. ๋ Œ๋”๋ง์—์„œ ์ง์ ‘ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ๊ตฌ์„ฑํ•จ์œผ๋กœ์จ, 3D ๋ฉ”์‰ฌ์—์„œ ์ง์ ‘ ์ ์„ ์ƒ˜ํ”Œ๋งํ•  ๋•Œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. (๋ชจ๋ธ ๋‚ด๋ถ€์— ํฌํ•จ๋œ ์ ์„ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฌธ์ œ, ์ด์ƒํ•œ ํŒŒ์ผ ํ˜•์‹์˜ 3D ๋ชจ๋ธ๋กœ ์ธํ•œ ๋ฌธ์ œ)

    3. ์ €ํ’ˆ์งˆ ๋ชจ๋ธ์„ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ํœด๋ฆฌ์Šคํ‹ฑ์„ ์‚ฌ์šฉํ•œ๋‹ค.

      1. ๊ฐ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์˜ SVD๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ๊ฐ€์žฅ ์ž‘์€ ํŠน์ด๊ฐ’์ด ์ผ์ • ์ž„๊ณ„๊ฐ’(threshold) ์ด์ƒ์ธ ๊ฒฝ์šฐ์—๋งŒ ์œ ์ง€ํ•จ์œผ๋กœ์จ ํ‰ํ‰ํ•œ ๊ฐ์ฒด๋ฅผ ์ œ๊ฑฐํ–ˆ๋‹ค.

      2. ๋‹ค์Œ์œผ๋กœ, CLIP ํŠน์„ฑ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ์…‹์„ ํด๋Ÿฌ์Šคํ„ฐ๋ง ํ–ˆ๋‹ค. (์ผ๋ถ€ ํด๋Ÿฌ์Šคํ„ฐ๋Š” ๋งŽ์€ ์ €ํ’ˆ์งˆ ๋ชจ๋ธ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ํฌํ•จํ•˜๋Š” ๋ฐ˜๋ฉด, ๋‹ค๋ฅธ ํด๋Ÿฌ์Šคํ„ฐ๋Š” ๋” ๋‹ค์–‘ํ•˜๊ฑฐ๋‚˜ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Œ)

      3. ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ํ’ˆ์งˆ์˜ ๋ฒ„ํ‚ท์œผ๋กœ ๋‚˜๋ˆ„๊ณ , ์ตœ์ข… ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ์„œ ๊ฒฐ๊ณผ ๋ฒ„ํ‚ท์˜ ๊ฐ€์ค‘์น˜ ํ˜ผํ•ฉ์„ ์‚ฌ์šฉํ–ˆ๋‹ค.

4.2 View Synthesis GLIDE Model#

  • โ€˜ํ…์ŠคํŠธ ์บก์…˜โ€™์„ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ โ€˜ํ•ฉ์„ฑ ๋ทฐโ€™๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ

  • 4.3์—์„œ ์„ค๋ช…ํ•  ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๋ชจ๋ธ์€ ๋ชจ๋‘ ๋™์ผํ•œ ๋ Œ๋”๋Ÿฌ์™€ ๋™์ผํ•œ ์กฐ๋ช… ์„ค์ •์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ Œ๋”๋ง๋œ ๋ทฐ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›๋Š”๋‹ค.

  • ๋”ฐ๋ผ์„œ ํ•ด๋‹น ํŒŒํŠธ์—์„œ๋Š” ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ„ํฌ์™€ ์ผ์น˜ํ•˜๋Š” 3D ๋ Œ๋”๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๊ณ ์ž ํ•˜์˜€๋‹ค.

  • ์ด๋ฅผ ์œ„ํ•ด GLIDE๋ฅผ ์›๋ž˜์˜ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ €์ž๋“ค์˜ 3D ๋ Œ๋”๋ง ๋ฐ์ดํ„ฐ์…‹์„ ํ˜ผํ•ฉํ•˜์—ฌ ํŒŒ์ธํŠœ๋‹ ํ•˜์˜€๋‹ค.

    • ์ €์ž๋“ค์˜ 3D ๋ Œ๋”๋ง ๋ฐ์ดํ„ฐ์…‹์ด ์›๋ž˜ GLIDE ํ•™์Šต์…‹์— ๋น„ํ•ด ์ž‘๊ธฐ ๋•Œ๋ฌธ์— 3D ๋ Œ๋”๋ง ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋น„์œจ์„ 5%๋กœ๋งŒ ์„ค์ •ํ•˜๊ณ , ๋‚˜๋จธ์ง€ 95%๋Š” ์›๋ž˜์˜ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค.

    • ๋ฐ˜๋ณต(iterations) ํšŸ์ˆ˜๋Š” 100,000๋ฒˆ์˜ ์„ค์ • ํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ์ด 3D ๋ฐ์ดํ„ฐ์…‹์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๊ฑฐ์น˜๋Š” ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค. (๋‹จ, ๋™์ผํ•œ ๋ Œ๋”๋ง๋œ ์‹œ์ ์„ ๋‘ ๋ฒˆ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค.)

  • ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„์—๋Š” ํ•ญ์ƒ ๋ถ„ํฌ ๋‚ด ๋ Œ๋”๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ธฐ ์œ„ํ•ด, ๋ชจ๋“  3D ๋ Œ๋”์˜ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์— ํŠน๋ณ„ํ•œ ํ† ํฐ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์ด ํ† ํฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค.

4.3 Point Cloud Diffusion#

  • โ€˜ํ•ฉ์„ฑ ๋ทฐโ€™๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ โ€˜๋Œ€๋žต์ ์ธ(coarse) ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ(1024๊ฐœ์˜ ํฌ์ธํŠธ)โ€™๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ

  • ๋””ํ“จ์ „์„ ์ด์šฉํ•ด ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด 3D Shape Generation and Completion through Point-Voxel Diffusion์—์„œ ์‚ฌ์šฉํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅํ•˜์—ฌ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์˜ ๊ฐ ํฌ์ธํŠธ์— RGB ์ƒ‰์ƒ์„ ํฌํ•จ์‹œ์ผฐ๋‹ค.

  • ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ K x 6 ํ˜•ํƒœ์˜ ํ…์„œ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ (K: ํฌ์ธํŠธ ์ˆ˜), ๋‚ด๋ถ€ ์ฐจ์›์€ (x,y,z) ์ขŒํ‘œ์™€ (R,G,B) ์ƒ‰์ƒ์„ ํฌํ•จํ•œ๋‹ค.

  • ๋ชจ๋“  ์ขŒํ‘œ์™€ ์ƒ‰์ƒ์€ [-1, 1] ๋ฒ”์œ„๋กœ ์ •๊ทœํ™” ๋œ๋‹ค.

  • K x 6 ํ˜•ํƒœ์˜ ๋žœ๋คํ•œ ๋…ธ์ด์ฆˆ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ด๋ฅผ ์ ์ง„์ ์œผ๋กœ ๋””๋…ธ์ด์ง•ํ•˜์—ฌ ํ…์„œ๋ฅผ ์ง์ ‘ ์ƒ์„ฑํ•œ๋‹ค.

  • ๊ธฐ์กด 3D ์ „์šฉ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜๋˜ ์ด์ „ ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋‹ฌ๋ฆฌ, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ๋‹ค. ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€, ํƒ€์ž„ ์Šคํ… t, ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๋Š” ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ \(x_t\)๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ \(\epsilon\)๊ณผ \(\sum\)์„ ์˜ˆ์ธกํ•œ๋‹ค.

  • ๋ชจ๋ธ ๊ตฌ์กฐ

    Point_E_02

    Fig. 670 Point-E ๋ชจ๋ธ ๊ตฌ์กฐ#

    • ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์˜ ๊ฐ ํฌ์ธํŠธ๋ฅผ ์ถœ๋ ฅ ์ฐจ์›์ดย D์ธ ์„ ํ˜• ๋ ˆ์ด์–ด(linear layer)์— ๋„ฃ์–ดย Kร—D ์ž…๋ ฅ ํ…์„œ๋ฅผ ์–ป๊ณ  ๋ชจ๋ธ์— ์ž…๋ ฅ ์ปจํ…์ŠคํŠธ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ๋˜ํ•œ ์ž‘์€ MLP์— ํƒ€์ž„์Šคํ… t๋ฅผ ๋„ฃ์–ด ์ปจํ…์ŠคํŠธ ์•ž์— ์ถ”๊ฐ€ํ•  ๋‹ค๋ฅธ D์ฐจ์› ๋ฒกํ„ฐ๋ฅผ ์–ป๋Š”๋‹ค.

    • ์ด๋ฏธ์ง€๋ฅผ ์กฐ๊ฑด์œผ๋กœ ์ž…๋ ฅ ๋ฐ›๊ธฐ ์œ„ํ•ด, ์‚ฌ์ „ ํ•™์Šต๋œ ViT-L/14 CLIP ๋ชจ๋ธ์— ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅํ•˜๊ณ  ์ด CLIP ๋ชจ๋ธ์˜ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด์˜ ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ ธ์˜จ๋‹ค. (shape: 256xDโ€™), ์ด๋ฅผ ์„ ํ˜• ํˆฌ์‚ฌ(lienarly project)ํ•˜์—ฌ 256xD shape์˜ ๋˜ ๋‹ค๋ฅธ ํ…์„œ๋ฅผ ์–ป๊ณ  ์ด๋ฅผ ํŠธ๋žœ์Šคํฌ๋จธ ์ปจํ…์ŠคํŠธ ์•ž์— ์ถ”๊ฐ€ํ•œ๋‹ค. โ†’ ์ด ๋ฐฉ๋ฒ•์ด ๋‹จ์ผ CLIP ์ด๋ฏธ์ง€ ๋˜๋Š” ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์šฐ์ˆ˜ํ–ˆ๋‹ค.

    • ์ตœ์ข… ์ž…๋ ฅ ์ปจํ…์ŠคํŠธ๋Š” (K+257) x D์˜ shape๊ฐ€ ๋œ๋‹ค. ๊ธธ์ด K์˜ ์ตœ์ข… ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์ตœ์ข… ํ† ํฐ K๊ฐœ๋ฅผ ๊ฐ€์ ธ์˜ค๊ณ  ์ด๋ฅผ ํ”„๋กœ์ ์…˜ํ•˜์—ฌ ์ž…๋ ฅ ํฌ์ธํŠธ K๊ฐœ์— ๋Œ€ํ•œ ฮต์™€ ฮฃ ์˜ˆ์ธก์„ ์–ป๋Š”๋‹ค.

  • ์ด ๋ชจ๋ธ์—์„œ๋Š” positional encoding์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ธ ์ž์ฒด๋Š” ์ž…๋ ฅ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์— ๋Œ€ํ•ด ์ˆœ์—ด ๋ถ„๋ณ„(permutation-invariant)ํ•˜๋‹ค.

4.4 Point Cloud Upsampler#

  • ์ด๋ฏธ์ง€ ๋””ํ“จ์ „ ๋ชจ๋ธ์—์„œ์˜ ๊ณ„์ธต ๊ตฌ์กฐ

    • ์ด๋ฏธ์ง€ ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ๊ฐ€์žฅ ์ข‹์€ ํ’ˆ์งˆ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋‹ฌ์„ฑ๋œ๋‹ค.

    • ์ด ๋ฐฉ์‹์—์„œ๋Š” ์ €ํ•ด์ƒ๋„์˜ ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•œ ํ›„, ์ด๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ์ด ์—…์ƒ˜ํ”Œํ•œ๋‹ค.

    โ†’ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ์ƒ์„ฑ์— ์ด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉ

  • ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ์ƒ์„ฑ์—์„œ์˜ ๊ณ„์ธต ๊ตฌ์กฐ

    • ํฐ ๋ฒ ์ด์Šค ๋ชจ๋ธ๋กœ 1K ํฌ์ธํŠธ๋ฅผ ์ƒ์„ฑํ•œ ํ›„, ์ž‘์€ ์—…์ƒ˜ํ”Œ๋ง ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ 4K ํฌ์ธํŠธ๋กœ ์—…์ƒ˜ํ”Œ๋ง ํ•œ๋‹ค.

    • ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ๊ฐ™์„ ๋•Œ, 4K ํฌ์ธํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ์—๋Š” 1K ํฌ์ธํŠธ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ๋ณด๋‹ค ๋„ค ๋ฐฐ ๋” ๋งŽ์€ ์—ฐ์‚ฐ์„ ํ•„์š”๋กœ ํ•œ๋‹ค.

  • ์—…์ƒ˜ํ”Œ๋Ÿฌ

    • ์—…์ƒ˜ํ”Œ๋Ÿฌ๋Š” ๋ฒ ์ด์Šค ๋ชจ๋ธ๊ณผ ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

    • ๋ชจ๋ธ์€ ์ €ํ•ด์ƒ๋„ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๋ชจ๋ธ๊ณผ ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

    • ์ €ํ•ด์ƒ๋„ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ž…๋ ฅ ๋ฐ›๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€ ์ปจ๋””์…”๋‹ ํ† ํฐ์ด ์žˆ๋‹ค.

    • 1K ํฌ์ธํŠธ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ์ž…๋ ฅ ๋ฐ›์•„ ์ถ”๊ฐ€๋กœ 3K ํฌ์ธํŠธ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ์ €ํ•ด์ƒ๋„ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์— ์ถ”๊ฐ€ํ•œ๋‹ค.

    • \(x_t\)์— ์‚ฌ์šฉ๋œ ๋ ˆ์ด์–ด๊ฐ€ ์•„๋‹Œ ๋ณ„๋„์˜ ์„ ํ˜• ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ์ €ํ•ด์ƒ๋„ ํฌ์ธํŠธ๋ฅผ ์ „๋‹ฌํ•˜์—ฌ, ๋ชจ๋ธ์ด positional encoding์„ ์‚ฌ์šฉํ•  ํ•„์š” ์—†์ด ์กฐ๊ฑด๋ถ€ ์ •๋ณด์™€ ์ƒˆ๋กœ์šด ํฌ์ธํŠธ๋ฅผ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

4.5 Producing Meshes#

  • ๋ Œ๋”๋ง ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ƒ์„ฑ๋œ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ง์ ‘ ๋ Œ๋”๋งํ•˜์ง€ ์•Š๋Š”๋‹ค.

  • ๋Œ€์‹ , ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ํ…์Šค์ฒ˜๊ฐ€ ์ž…ํ˜€์ง„ ๋ฉ”์‰ฌ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  Blender๋ฅผ ์‚ฌ์šฉํ•ด ์ด๋Ÿฌํ•œ ๋ฉ”์‰ฌ๋ฅผ ๋ Œ๋”๋งํ•œ๋‹ค.

  • ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์—์„œ ๋ฉ”์‰ฌ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋•Œ๋•Œ๋กœ ์–ด๋ ต๊ณ , ๋ณธ ๋…ผ๋ฌธ์˜ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋Š” ์ข…์ข… ๊ท ์—ด, ์ด์ƒ์น˜ ๋˜๋Š” ๊ธฐํƒ€ ์œ ํ˜•์˜ ๋…ธ์ด์ฆˆ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์–ด ๋”์šฑ ์–ด๋ ต๋‹ค.

  • ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์—์„œ ๋ฉ”์‰ฌ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์ „ ํ•™์Šต๋œ SAP๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด๋ดฃ์œผ๋‚˜ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์— ์กด์žฌํ–ˆ๋˜ ํฐ ๋ถ€๋ถ„์ด๋‚˜ ์ค‘์š”ํ•œ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ์žƒ์–ด๋ฒ„๋ฆฌ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ๋‹ค.

  • ๋”ฐ๋ผ์„œ ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํšŒ๊ท€(regression) ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ signed distance field๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , ์ด๋ฅผ merching cube ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•˜์—ฌ ๋ฉ”์‰ฌ๋ฅผ ์ถ”์ถœํ–ˆ๋‹ค.

  • ๊ทธ๋Ÿฐ ๋‹ค์Œ ์›๋ž˜ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ ์˜ ์ƒ‰์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฉ”์‰ฌ์˜ ๊ฐ ๋ฒ„ํ…์Šค์— ์ƒ‰์„ ํ• ๋‹นํ–ˆ๋‹ค.

5. Results#

  • ํ‰๊ฐ€ ์ง€ํ‘œ: CLIP R-Precision, P-IS, P-FID

    • CLIP R-Precision

      • ํŠน์ • ๊ฐ์ฒด๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ•˜์—ฌ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ ์„ค๋ช…๊ณผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ผ์น˜ํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ

      • ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •

        • ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ CLIP ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ์ด๋ฏธ์ง€์˜ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ๊ณ„์‚ฐํ•œ๋‹ค.

        • CLIP ๋ชจ๋ธ์—์„œ ๊ณ„์‚ฐ๋œ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ๊ณผ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.

        • ์œ ์‚ฌ๋„๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ์ƒ์œ„ R๊ฐœ์˜ ์ด๋ฏธ์ง€ ์ค‘ ์‹ค์ œ๋กœ ๋งž๋Š” ์ด๋ฏธ์ง€์˜ ๋น„์œจ์„ ๊ณ„์‚ฐํ•œ๋‹ค.

    • P-IS, P-FID

      • ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์˜ Inception Score์™€ FID๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ๋…ผ๋ฌธ์—์„œ ๋„์ž…ํ•œ ์ง€ํ‘œ

      • ์ˆ˜์ •๋œ PointNet++ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ  ํด๋ž˜์Šค ํ™•๋ฅ ์„ ์—์ธก

5.1 Model Scaling and Ablations#

์ €์ž๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฒ ์ด์Šค ๋ชจ๋ธ์— ๋Œ€ํ•˜์—ฌ ํ•™์Šต ์ค‘์— ์ƒ์„ฑํ•œ ์ƒ˜ํ”Œ๋“ค๋กœ ํ‰๊ฐ€ํ•˜์˜€๋‹ค.

  • 40M (uncond.): ์–ด๋– ํ•œ ์กฐ๊ฑด ์ •๋ณด๋„ ์—†๋Š” ์ž‘์€ ๋ชจ๋ธ

  • 40M (text vec.): ํ…์ŠคํŠธ ์บก์…˜์—๋งŒ ์˜์กดํ•˜๋Š” ์ž‘์€ ๋ชจ๋ธ (์ด๋ฏธ์ง€ ์‚ฌ์šฉ x), ํŒŒ์ธํŠœ๋‹๋œ GLIDE ๋ชจ๋ธ ํ™œ์šฉ x

  • 40M (image vec.): ๋ Œ๋”๋ง๋œ ์ด๋ฏธ์ง€์˜ CLIP ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์— ์˜์กดํ•˜๋Š” ์ž‘์€ ๋ชจ๋ธ, ๋‹จ์ผ CLIP ์ž„๋ฒ ๋”ฉ ์‚ฌ์šฉ

  • 40M: CLIP ์ž ์žฌ ๊ทธ๋ฆฌ๋“œ(latent grid)๋ฅผ ํ†ตํ•œ ์ „์ฒด ์ด๋ฏธ์ง€ ์กฐ๊ฑด์„ ์‚ฌ์šฉํ•˜๋Š” ์ž‘์€ ๋ชจ๋ธ

  • 300M: CLIP ์ž ์žฌ ๊ทธ๋ฆฌ๋“œ๋ฅผ ํ†ตํ•œ ์ „์ฒด ์ด๋ฏธ์ง€ ์กฐ๊ฑด์„ ์‚ฌ์šฉํ•˜๋Š” ์ค‘๊ฐ„ ๋ชจ๋ธ

  • 1B: CLIP ์ž ์žฌ ๊ทธ๋ฆฌ๋“œ๋ฅผ ํ†ตํ•œ ์ „์ฒด ์ด๋ฏธ์ง€ ์กฐ๊ฑด์„ ์‚ฌ์šฉํ•˜๋Š” ํฐ ๋ชจ๋ธ

ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜ ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™๋‹ค.

Point_E_03

Fig. 671 ํ‰๊ฐ€ ๊ฒฐ๊ณผ#

  • ๊ฒฐ๊ณผ

    • ํ…์ŠคํŠธ ์กฐ๊ฑด๋งŒ ์‚ฌ์šฉํ•˜๊ณ  ํ…์ŠคํŠธ์—์„œ ์ด๋ฏธ์ง€๋กœ์˜ ๋‹จ๊ณ„๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ CLIP R-Precision์ด ๋งค์šฐ ๋‚˜์˜๊ฒŒ ๋‚˜์˜ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌ

    • ์ด๋ฏธ์ง€๋ฅผ ์กฐ๊ฑด์œผ๋กœ ์‚ฌ์šฉํ•  ๋•Œ ๋‹จ์ผ CLIP ์ž„๋ฒ ๋”ฉ๋ณด๋‹ค ์ž„๋ฒ ๋”ฉ ๊ทธ๋ฆฌ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ์ด ๋” ๋‚˜์€ ๊ฒƒ์„ ๋ฐœ๊ฒฌ โ†’ ์กฐ๊ฑด ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ๋” ๋งŽ์€ (๊ณต๊ฐ„์ ์ธ) ์ •๋ณด๋ฅผ ๋ณด๋Š” ๊ฒƒ์ด ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๋ชจ๋ธ์— ์ด์ ์ด ์žˆ์Œ์„ ์‹œ์‚ฌ

    • ๋ชจ๋ธ์˜ ์Šค์ผ€์ผ์„ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด P-FID ์ˆ˜๋ ด ์†๋„๊ฐ€ ํ–ฅ์ƒ๋˜๊ณ  ์ตœ์ข… CLIP R-Precision์ด ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌ

5.2 Qualitative Results#

  • ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ์ƒ์„ฑ ๊ฒฐ๊ณผ

    Point_E_04

    Fig. 672 ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ์ƒ์„ฑ ๊ฒฐ๊ณผ#

  • PointยทE ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ์ข…์ข… ์ผ๊ด€๋œ ๊ณ ํ’ˆ์งˆ์˜ 3D ํ˜•์ƒ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

  • ๋•Œ๋•Œ๋กœ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๋””ํ“จ์ „ ๋ชจ๋ธ์€ ์กฐ๊ฑดํ™”๋œ ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜ ์˜ˆ์ธกํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค. ์ด๋Š” ์ฃผ๋กœ ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜๋กœ ์ธํ•ด ๋ฐœ์ƒํ•œ๋‹ค.

    Point_E_05

    Fig. 673 ์ž˜๋ชป ์ถ”๋ก ํ•œ ์˜ˆ์‹œ#

    1. ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์— ๋‚˜ํƒ€๋‚œ ๊ฐ์ฒด์˜ ๋ชจ์–‘์„ ์ž˜๋ชป ํ•ด์„ํ•˜๋Š” ๊ฒฝ์šฐ

    2. ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์—์„œ ๊ฐ€๋ ค์ง„ ํ˜•์ƒ์˜ ์ผ๋ถ€๋ฅผ ์ž˜๋ชป ์ถ”๋ก ํ•˜๋Š” ๊ฒฝ์šฐ

5.3 Comparison to Other Methods#

  • CLIP-R-Precision ์ง€ํ‘œ๋ฅผ ์ด์šฉํ•˜์—ฌ PointยทE๋ฅผ ๋‹ค๋ฅธ 3D ์ƒ์„ฑ ๊ธฐ์ˆ ๊ณผ ๋น„๊ตํ–ˆ๋‹ค.

    Point_E_06

    Fig. 674 CLIP-R-Precision ์„ฑ๋Šฅ#

  • PointยทE๋Š” state-of-the-art ๊ธฐ์ˆ (DreamFusion)๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š์ง€๋งŒ, ์ด ๋ถˆ์ผ์น˜์˜ ์ผ๋ถ€๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ์ด ํ‰๊ฐ€์˜ ๋‘ ๊ฐ€์ง€ ๋ฏธ๋ฌ˜ํ•œ ์ ์— ์ฃผ๋ชฉํ•ด์•ผ ํ•œ๋‹ค.

    1. DreamFusion๊ณผ ๊ฐ™์€ ๋ฉ€ํ‹ฐ๋ทฐ ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ PointยทE๋Š” ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€ ์ผ์น˜ํ•˜๋„๋ก ๋ชจ๋“ ๋ทฐ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜์ง€ ์•Š๋Š”๋‹ค. ํŠน์ • ๊ฐ์ฒด๊ฐ€ ๋ชจ๋“  ๊ฐ๋„์—์„œ ์‰ฝ๊ฒŒ ์‹๋ณ„๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— CLIP R-Precision์ด ๋‚ฎ์•„์งˆ ์ˆ˜ ์žˆ๋‹ค.

    2. ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•์€ ๋ Œ๋”๋ง ์ „์— ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ „์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š”๋ฐ, ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ๋ฉ”์‰ฌ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šด ๋ฌธ์ œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์ด ์‚ฌ์šฉํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋•Œ๋•Œ๋กœ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ์ž์ฒด์— ์žˆ๋Š” ์ •๋ณด๋ฅผ ์žƒ์„ ์ˆ˜ ์žˆ๋‹ค.

  • PointยทE๋Š” ์ตœ์‹  ํ…Œํฌ๋‹‰๋ณด๋‹ค ์ด ํ‰๊ฐ€์—์„œ ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š์ง€๋งŒ ์งง์€ ์‹œ๊ฐ„ ๋‚ด์— ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•œ๋‹ค.

  • ์ด๋ฅผ ํ†ตํ•ด ๋ณด๋‹ค ์‹ค์šฉ์ ์œผ๋กœ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์„ ๋งŒ๋“ค๊ฑฐ๋‚˜ ๋งŽ์€ ๊ฐœ์ฒด๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ  ์ตœ์ƒ์˜ ๊ฐœ์ฒด๋ฅผ ํœด๋ฆฌ์Šคํ‹ฑ์„ ๋”ฐ๋ผ ์„ ํƒํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ 3D ๊ฐœ์ฒด๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

6. Limitations and Future Work#

  • ํ•ฉ์„ฑ ๋ Œ๋”๋ง์„ ํ•„์š”๋กœ ํ•œ๋‹ค. โ†’ ํ–ฅํ›„ ์‹ค์ œ ์„ธ๊ณ„ ์ด๋ฏธ์ง€๋ฅผ ์กฐ๊ฑด์œผ๋กœ ํ•˜๋Š” 3D ์ƒ์„ฑ๊ธฐ๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ

  • ์ƒ‰์ƒ์ด ์žˆ๋Š” 3D ํ˜•ํƒœ๋ฅผ ์ƒ์„ฑํ•˜์ง€๋งŒ, ์ด ๊ณผ์ •์€ ๋น„๊ต์  ๋‚ฎ์€ ํ•ด์ƒ๋„์˜ 3D ํ˜•์‹(ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ)๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค. ํ˜•์ƒ์ด๋‚˜ ์งˆ๊ฐ์˜ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ์บก์ฒ˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค. โ†’ ๋ฉ”์‰ฌ๋‚˜ NeRF์™€ ๊ฐ™์€ ๊ณ ํ•ด์ƒ๋„ 3D ํ‘œํ˜„์„ ์ƒ์„ฑํ•˜๋„๋ก ํ™•์žฅํ•˜๋ฉด ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ

  • ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ (optimization-based techniques)์„ ์ดˆ๊ธฐํ™”ํ•˜์—ฌ ์ดˆ๊ธฐ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋†’์ด๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ์ด ๋ชจ๋ธ์ด DALLยทE 2 ์‹œ์Šคํ…œ๊ณผ ๋งŽ์€ ์ œํ•œ ์‚ฌํ•ญ์„ ๊ณต์œ ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒํ•œ๋‹ค. (๋ฐ์ดํ„ฐ์…‹์—์„œ ์•ผ๊ธฐ๋œ ๋งŽ์€ ํŽธํ–ฅ์„ ํฌํ•จํ•  ์ˆ˜ ์žˆ๋‹ค)

  • ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ 3D ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ์ œ์ž‘๋  ๋•Œ, ๊ทธ ์ œํ’ˆ์ด ์œ„ํ—˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌผ์ฒด์˜ ์ฒญ์‚ฌ์ง„์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

    Point_E_07

    Fig. 675 Figure 6#

7. Conclusion#

  • PointยทE๋Š” ํ•ฉ์„ฑ๋œ ๋ทฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์กฐ๊ฑดํ™”๋œ ์ƒ‰์ƒ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ…์ŠคํŠธ ์กฐ๊ฑด ํ•ฉ์„ฑ ์‹œ์Šคํ…œ์ด๋‹ค.

  • PointยทE๊ฐ€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์— ์˜ํ•ด ์กฐ๊ฑดํ™”๋œ ๋‹ค์–‘ํ•˜๊ณ  ๋ณต์žกํ•œ 3D ํ˜•์ƒ์„ ํšจ์œจ์ ์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

  • ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์ด ํ…์ŠคํŠธ์—์„œ 3D๋กœ์˜ ํ•ฉ์„ฑ ๋ถ„์•ผ์—์„œ์˜ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ์˜ ์‹œ์ž‘์ ์œผ๋กœ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๊ธฐ๋ฅผ ํฌ๋งํ•œ๋‹ค.