5.10 Hadoop Ecosystem#
Apache Hadoop ์์ฝ์์คํ ์ด๋ Apache Hadoop ์ํํธ์จ์ด ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด๋ฃจ๋ ๋ค์ํ ๊ตฌ์ฑ ์์๋ฅผ ๋งํฉ๋๋ค. Hadoop Ecosystem์ ๋ถ์ฐ ์ปดํจํ ์ ์ํ ์คํ ์์ค ํ๋ ์์ํฌ๋ก, ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ ์ฅํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. Hadoop Ecosystem์ ์ฌ๋ฌ ๊ตฌ์ฑ ์์๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ๊ตฌ์ฑ ์์ ์ค ์ผ๋ถ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
HDFS#
HDFS๋ Hadoop Distributed File System์ ์ฝ์๋ก ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ ์ ์ฅํ๋ ํ๋ก์ ๊ธฐ๋ณธ ์คํ ๋ฆฌ์ง ์์คํ ์ ๋๋ค.
Hive#
Hive๋ HDFS์ ์ ์ฅ๋ ๋ฐ์ดํฐ๋ฅผ SQL๋ก ์ฟผ๋ฆฌํ๋ ค๋ ๋ชฉ์ ์์ ํ์๋ ํด์ ๋๋ค. ์ ํํ๊ฒ SQL๊ณผ ๋์ผํ์ง ์์ง๋ง SQL๊ณผ ์ ์ฌํ ๊ตฌ๋ฌธ์ ํ์ฉํฉ๋๋ค. RDB์ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ํ ์ด๋ธ๊ณผ ๊ฐ์ ํํ๋ก HDFS์ ์ ์ฅ๋ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ฉฐ, ์ด ๋ฐ์ดํฐ๋ฅผ ๋์์ผ๋ก SQL๊ณผ ์ ์ฌํ HiveQL ์ฟผ๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์กฐํํ๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
๊ฐ์ฅ ํฐ ํน์ง์ผ๋ก๋ ๋ฉํ์คํ ์ด๋ผ๋ ๊ฒ์ด ์กด์ฌํ๋๋ฐ, ํ์ด๋ธ๋ ๊ธฐ์กด์ RDB์๋ ๋ค๋ฅด๊ฒ ๋ฏธ๋ฆฌ ์คํค๋ง๋ฅผ ์ ์ํ๊ณ ๊ทธ ํ์ ๋ง๊ฒ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํ๋ ๊ฒ์ด ์๋, ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ๊ฑฐ๊ธฐ์ ์คํค๋ง๋ฅผ ์ ํ๋(๋ฉํ์คํ ์ด์ ์ ๋ ฅํ๋) ๊ฒ์ด ๊ฐ์ฅ ํฐ ํน์ง์ ๋๋ค.
HiveQL์ด๋ผ๋ ์ฟผ๋ฆฌ ๋ฌธ๋ฒ์ ํ์ฉํด MapReduce๋ฅผ ํธํ๊ฒ ์ฌ์ฉํ๋ ค๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค.
Apache Pig#
MapReduce๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ๋ถ์ฐ ํ์ผ ์์คํ ์ ์ฒ๋ฆฌํ ์ ์๋ ์คํฌ๋ฆฝํธ ์ธ์ด์ ๋๋ค.
MapReduce#
MapReduce๋ ๋ถ์ฐ ํ์ผ ์์คํ ์ธ HDFS์ ๋ฐ์ดํฐ๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ ์ ์๋ ์ํํธ์จ์ด ํ๋ ์์ํฌ ๊ตฌํ์ฒด์ ๋๋ค.
YARN#
YARN์ Yet Another Resource Negotiator์ ์ฝ์ด์ธ๋ฐ, ํต์ ์ฝ์ด๋ง ์จ์ ์ง์นญํฉ๋๋ค. ์ด๊ฒ์ ์คํ ์์ค Apache Hadoop์ ํต์ฌ ๊ตฌ์ฑ ์์ ์ค ํ๋๋ก, ๋ฆฌ์์ค ๊ด๋ฆฌ์ ์ ํฉํฉ๋๋ค. ์ํฌ๋ก๋ ๊ด๋ฆฌ, ๋ชจ๋ํฐ๋ง, ๋ณด์ ๊ด๋ฆฌ ๊ตฌํ ๋ฑ์ ์์ ์ ๋ด๋นํฉ๋๋ค. ๋ํ ์์คํ ๋ฆฌ์์ค๋ฅผ ํ๋ก ํด๋ฌ์คํฐ์์ ์คํ๋๋ ๋ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์ ํ ๋นํ๋ฉด์ ๋์์ ๊ฐ๊ฐ์ ํด๋ฌ์คํฐ ๋ ธ๋์์ ์ด๋ ์์ ์ ์คํํ๋ ๊ฒ์ด ์ข์์ง ํ ๋นํ๊ธฐ๋ ํฉ๋๋ค. YARN์ ํฌ๊ฒ ๋ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
๋ฆฌ์์ค ๊ด๋ฆฌ์
๋ ธ๋ ๊ด๋ฆฌ์
Apache Spark#
Apache Spark๋ ๋ฌด์ฒ ๊ด๋ฒ์ํ ์ํฉ์ ์ฌ์ฉํ๊ธฐ ์ ํฉํ ๊ณ ์, ๋ฉ๋ชจ๋ฆฌ ๋ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์ง์ ๋๋ค. Spark๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ๋ฐฐํฌํ ์ ์๊ณ Java, Python, Scala์ R ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ฅผ ํฌํจํ๋ฉฐ SQL ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ, ๋จธ์ ๋ฌ๋๊ณผ ๊ทธ๋ํ ์ฒ๋ฆฌ๋ฅผ ์ง์ํ์ฌ ์ฃผ์ด์ง ์ ํ๋ฆฌ์ผ์ด์ ํ ๊ฐ์์ ์ด๋ฅผ ํจ๊ป ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ ๋ฆฌ#
๊ฒฐ๊ตญ Hadoop ์ํ๊ณ์ ๋ฐ์ ์ผ๋ก ๋น ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋๋ฐ ๋๋ ๋น์ฉ์ด ๋ง์ด ์ค์ด๋ค์์ต๋๋ค. ๋ง์ ๊ธฐ์ ์์ Hadoop์ ๊ธฐ๋ฐ์ผ๋ก ๋น ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ธฐ ์ํ ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํ์๊ณ ์ด์ ๋ ์์๋ data๋ฅผ ๋ถ์ํ๊ณ ํ์ฉํ์ฌ ์๋ก์ด ๊ธฐํ๋ฅผ ์ฐฝ์ถํ๋ ์๋์ ๋์ ํ๋ค๊ณ ํฉ๋๋ค.