본문 바로가기

data pipeline

(2)
[데이터 파이프라인 핵심 가이드] 2. 최신 데이터 인프라 ▽ 1장 데이터 파이프라인 소개는 이전 포스팅을 참고해주세요 ▽ [데이터 파이프라인 핵심 가이드] 1. 데이터 파이프라인 소개 본 포스팅은 위키북스 사의 "데이터 파이프라인 핵심 가이드"의 내용을 정리한 글입니다. 1. 데이터 파이프라인 소개 1 - 1. 데이터 파이프라인이란? 데이터 파이프라인은 다양한 소스에서 새로운 it-is-my-life.tistory.com 2. 최신 데이터 인프라 이 장에서는 파이프라인을 구축하기 위한 제품과 설계를 결정하기 전에 최신 데이터 인프라를 구성하는 주요 구성 요소에 대한 설명이 등장한다. 2 - 1. 데이터 소스의 다양성 대부분의 조직에는 분석 작업의 수행 대상이 되는 수십개에서 수백개의 데이터 소스가 존재한다. 데이터 소스들은 여러 차원으로 구분될 수 있다. 소스..
[요리고 Airflow 도입기] 0. Airflow 사용을 결정한 이유 SW마에스트로 과정에서 본인은 AI 및 데이터 파트를 담당하여 "요리고" 모델에 대한 2개의 AI 모델 개발 및 데이터 파이프라인(이라고 부르지만 서빙이 전부)을 개발하였다. 소마가 끝난 후에 여러모로 데이터 파이프라인 부분에 아쉬움이 많이 남았고, 간단한 사이드 프로젝트로 airflow를 활용하여 데이터 파이프라인을 개선해보려고 한다. 기존 "요리고"의 시스템 구성은 다음과 같다. AI 모델의 경우, 서버비 절감을 위해서 Preprcessing, Inference, Postprocessing을 하나의 도커 이미지로 빌드하고 클라이언트의 요청이 있을 때마다 람다를 통해서 컨테이너를 생성하는 형태로 서빙을 진행했고 동작에는 무리가 없었으나 다음과 같은 문제점이 있었다. 1. Preprocessing이나 새..