4.4 Data Lake

4.4 Data Lake#

Untitled

Data LakeλŠ” λ‹€μ–‘ν•œ ν˜•νƒœμ˜ 데이터λ₯Ό μ €μž₯ν•˜κΈ° μœ„ν•œ 객체 μŠ€ν† λ¦¬μ§€ ν˜•μ‹μ˜ μ €μž₯μ†Œμž…λ‹ˆλ‹€.

λΉ„μ •ν˜• λ°μ΄ν„°λ‚˜ μ‹€μ‹œκ°„ 데이터와 같이 λ‹€μ–‘ν•œ ν˜•νƒœμ™€ 크기의 데이터 μ €μž₯에 μ ν•©ν•©λ‹ˆλ‹€.

데이터λ₯Ό μˆ˜μ§‘ ν›„ λ°”λ‘œ μ •μ œ 과정을 μ§„ν–‰ν•˜λŠ” ETL Processμ™€λŠ” λ‹€λ₯΄κ²Œ λ¨Όμ € 데이터λ₯Ό κΈ°μ‘΄ ν˜•νƒœλ‘œ μ €μž₯ν•œ ν›„, 이후에 μŠ€ν‚€λ§ˆλ₯Ό μ •μ˜ν•˜κ³  μ μž¬ν•˜λŠ” ELT Processλ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€.


  • κΈ°λŠ₯ 및 νŠΉμ§•

    • λΉ„μ •ν˜• 데이터, μ •ν˜• 데이터, μ‹€μ‹œκ°„ 데이터 λ“± λͺ¨λ“  μ’…λ₯˜μ˜ 데이터λ₯Ό κΈ°μ‘΄ ν˜•νƒœλ‘œ μ €μž₯ν•©λ‹ˆλ‹€.

    • μœ μ—°ν•˜κ³  λΉ„μš©μ ˆκ°μ΄ κ°€λŠ₯ν•˜λ©° λΉ„μ •ν˜• 데이터λ₯Ό μ •μ œν•˜μ§€ μ•Šκ³ λ„ ad-hoc 뢄석 등에 ν™œμš© ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  • 단점

    • μ ‘κ·Ό κΆŒν•œ 관리, λ™μ‹œμ„±, ACID Transaction, BI μ œν’ˆκ³Όμ˜ ν˜Έν™˜μ„±μ΄ κΈ°μ‘΄ data warehouse보닀 μ•½ν•©λ‹ˆλ‹€.

    • μˆ˜μ •μ΄ ν•„μš”ν•œ 경우 νŒŒμΌμ„ κ΅μ²΄ν•˜λŠ” 방법밖에 μ—†κΈ° λ•Œλ¬Έμ— μˆ˜μ‹œλ‘œ 변경이 ν•„μš”ν•œ 데이터에 λΆ€μ ν•©ν•©λ‹ˆλ‹€.

  • 객체 μŠ€ν† λ¦¬μ§€

    • 객체 μŠ€ν† λ¦¬μ§€λŠ” 데이터가 μ €μž₯될 λ–„, λ‹€μˆ˜μ˜ 컴퓨터λ₯Ό μ‚¬μš©ν•˜μ—¬ λΆ€ν•˜ 뢄산이 μ΄λ€„μ§€λŠ” μ €μž₯μ†Œμž…λ‹ˆλ‹€.

    • 객체 μŠ€ν† λ¦¬μ§€ 기반의 μ €μž₯μ†ŒλŠ” λ°©λŒ€ν•œ μ–‘μ˜ 데이터λ₯Ό μ €μž₯ν•˜μ—¬λ„ μ„±λŠ₯에 크게 지μž₯이 μ—†μ§€λ§Œ μ†ŒλŸ‰μ˜ 데이터λ₯Ό μ €μž₯ν•˜κΈ°μ—” λΉ„νš¨μœ¨μ μž…λ‹ˆλ‹€.

    • ex) gcs, s3, HDFS