반응형
  • ETL ( Extract → Transform → Load )
    • 전통적 방식
    • 데이터를 원본에서 추출(Extract)중간 처리 서버에서 변환(Transform) → 최종적으로 데이터 웨어하우스에 적재(Load)
    • 데이터 웨어하우스의 연산 능력이 부족하던 시절에 주로 사용됨
    • [Source] → (Extract) → [ETL 서버에서 Transform] → (Load) → [Data Warehouse]
  • ELT ( Extract → Load → Transform )
    • 현대적 방식 (dbt가 여기에 해당)
    • 데이터를 원본에서 추출(Extract) → 그대로 데이터 웨어하우스에 적재(Load) → 웨어하우스 내부에서 SQL 기반 변환(Transform) 수행
    • Snowflake, BigQuery, Redshift, Databricks 등 강력한 클라우드 DWH가 등장하면서 표준이 됨
    • [Source] → (Extract + Load, Ingestion) → [Data Warehouse] → (Transform, dbt) → [Analytics-ready Data]
  • 요약
구분 ETL ELT (dbt 활용)
Transform 위치 ETL 서버(외부 처리 엔진) 데이터 웨어하우스 내부
데이터 적재 순서 변환 후 Load Load 후 변환
도구 예시 Informatica, Talend, Pentaho dbt, SQL, BigQuery/Snowflake/Redshift 내장 기능
장점 - 웨어하우스 부담 ↓- 보안·정책 제약 환경에서 유리 - 웨어하우스의 강력한 성능 활용- 단순 구조 (원시데이터와 정제데이터 모두 보관)- SQL만으로 개발 가능
단점 - 변환 서버 운영 필요- 확장성 낮음 - 웨어하우스 비용 증가 가능- 웨어하우스 의존도 ↑
사용 사례 과거 온프레미스 DWH 환경 최신 클라우드 DWH + dbt 파이프라인

 

반응형
반응형

 

구분 Ingestion Transformation (dbt)
의미 원천(Source) 시스템에서 데이터를 수집하여 웨어하우스/데이터레이크에 옮겨 적재하는 과정 웨어하우스 내부에 적재된 원시(raw) 데이터를 정제·모델링·가공하는 과정
ETL/ELT 단계 E(Extract) + L(Load) T(Transform)
주요 도구 Fivetran, Stitch, Airbyte, Spark, Python 스크립트 등 dbt Core / dbt Cloud
출력 결과 웨어하우스의 Landing / Raw Layer (원시 데이터) 웨어하우스의 Staging / Warehouse / Mart Layer (분석·비즈니스 친화적 데이터)
기술적 초점 - 데이터 이동 자동화- API, DB 커넥터, 스트리밍 등 지원- 스키마나 포맷 변환 최소화 - SQL 기반 모델링- 데이터 품질 검증(Test)- 의존성 관리(DAG)- 문서화 자동화
사용자 데이터 엔지니어 중심 데이터 분석가 + 애널리틱스 엔지니어
예시 “Facebook Ads 데이터를 Snowflake로 매일 적재” “Snowflake에 쌓인 Ads 데이터를 정제해 마케팅 ROI 리포트용 테이블 생성”
반응형

+ Recent posts