MLOps Lifecycle 1

문제 정의

  • 풀어야 하는 문제 정의를 먼저 해야 함

  • 문제를 해결하기 위해 데이터를 준비하고 이러한 작업들이 실제로 비즈니스 가치를 창출할 수 있어야 함

데이터 확보

  • 문제 해결을 위한 데이터 확보 프로세스

1. 데이터 확보 
2. 데이터 수집  
3. 데이터 연계 과정
  • 고정되어있지 않고 변화하는 데이터셋의 경우 버전 관리 및 공유가 필수적임

데이터셋 탐색 및 가공

  • 데이터가 어떻게 분포해있는지 확인하는 단계

  • 데이터셋 요약 및 시각화를 이용한 탐색이 필요함 (분포 확인, 이상치 및 결측치 확인, 시각화)

  • 이미지 분류와 같이 데이터에 대한 레이블이 필요할 경우 태그하는 과정이 필요

  • 모델 학습, 통계 분석을 통해 피처 중 중요한 것과 아닌 것을 파악

  • 데이터의 패턴과 분포를 통해 피처 간 연관성 확인

데이터 검증

  • 데이터 품질관리 기반인 검증 단계

1. 테이블  건수 검증
2. 코드 검증
3. 무결성 검증
  • 검증 요건에 따라 설계 후 검증 쿼리 개발, 검증 결과 모니터링 후 피드백하는 프로세스