반응형
구분 | Ingestion | Transformation (dbt) |
의미 | 원천(Source) 시스템에서 데이터를 수집하여 웨어하우스/데이터레이크에 옮겨 적재하는 과정 | 웨어하우스 내부에 적재된 원시(raw) 데이터를 정제·모델링·가공하는 과정 |
ETL/ELT 단계 | E(Extract) + L(Load) | T(Transform) |
주요 도구 | Fivetran, Stitch, Airbyte, Spark, Python 스크립트 등 | dbt Core / dbt Cloud |
출력 결과 | 웨어하우스의 Landing / Raw Layer (원시 데이터) | 웨어하우스의 Staging / Warehouse / Mart Layer (분석·비즈니스 친화적 데이터) |
기술적 초점 | - 데이터 이동 자동화- API, DB 커넥터, 스트리밍 등 지원- 스키마나 포맷 변환 최소화 | - SQL 기반 모델링- 데이터 품질 검증(Test)- 의존성 관리(DAG)- 문서화 자동화 |
사용자 | 데이터 엔지니어 중심 | 데이터 분석가 + 애널리틱스 엔지니어 |
예시 | “Facebook Ads 데이터를 Snowflake로 매일 적재” | “Snowflake에 쌓인 Ads 데이터를 정제해 마케팅 ROI 리포트용 테이블 생성” |
반응형