MLOps Lifecycle 1
문제 정의
풀어야 하는 문제 정의를 먼저 해야 함
문제를 해결하기 위해 데이터를 준비하고 이러한 작업들이 실제로 비즈니스 가치를 창출할 수 있어야 함
데이터 확보
문제 해결을 위한 데이터 확보 프로세스
1. 데이터 확보
2. 데이터 수집
3. 데이터 연계 과정
고정되어있지 않고 변화하는 데이터셋의 경우 버전 관리 및 공유가 필수적임
데이터셋 탐색 및 가공
데이터가 어떻게 분포해있는지 확인하는 단계
데이터셋 요약 및 시각화를 이용한 탐색이 필요함 (분포 확인, 이상치 및 결측치 확인, 시각화)
이미지 분류와 같이 데이터에 대한 레이블이 필요할 경우 태그하는 과정이 필요
모델 학습, 통계 분석을 통해 피처 중 중요한 것과 아닌 것을 파악
데이터의 패턴과 분포를 통해 피처 간 연관성 확인
데이터 검증
데이터 품질관리 기반인 검증 단계
1. 테이블 별 건수 검증
2. 코드 검증
3. 무결성 검증
검증 요건에 따라 설계 후 검증 쿼리 개발, 검증 결과 모니터링 후 피드백하는 프로세스