4.6 ๐ป Data Pipeline ์ค์ต#
์์ Process#
Source Data
๋ค์ด๋ฒ ๋ถ๋์ฐ ๋ฐ์ดํฐ ์ค ํ ๋งค๋ฌผ ๋ฆฌ์คํธ๋ฅผ Crawlingํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ต๋๋ค.
๋ฐ์ดํฐ ์ ๋ณด
Data Lake
Data Lake๋ source data ์๋ณธ ์ ์ฅ ์ฉ๋๋ก ์ฌ์ฉํ์์ต๋๋ค.
raw file์ธ csv ํํ๋ก ์ ์ฅ๋์ด ์์ผ๋ฉฐ Data Lake์์ ์ฟผ๋ฆฌ, ๋ฐ์ดํฐ ํ์ ๋ฑ์ ๋ถ๊ฐ๋ฅํ ์ํ์ ๋๋ค.
Data Warehouse
Data Lake์ ์ ์ฅ๋ ๋ฐ์ดํฐ๋ฅผ Data Warehouse์ Loadํ๋ฉด์ structured data๋ก ๋ณํํ์์ต๋๋ค.
Data Warehouse์์ ์ฟผ๋ฆฌ๋ฅผ ํตํด ๋ฐ์ดํฐ ํ์์ด ๊ฐ๋ฅํฉ๋๋ค.
Visualize
Looker studio๋ฅผ ํ์ฉํ์ฌ bigquery ํ ์ด๋ธ์ loadํ์ฌ ์๊ฐํํ๋ ๊ณผ์ ๊น์ง ์งํํ์ต๋๋ค.