logo
logo
화해의 Data Lake와 Data Warehouse 구조
코드너리  |  2022. 06. 23
데이터 파이프라인
사용된 기술:
googlebigquery-image
mysql-image
content

요약:

현재의 DW를 구축하기 위해, 주제 영역을 잡고 대시보드 쿼리와 분석에 사용되는 쿼리를 분석하고, 공통적으로 자주 쓰이는 Dimension과 Metric을 정의했습니다. 조인이 많이 일어나는 상황을 피하기 위해, 디멘전 테이블을 별도로 만드는 케이스는 최소화하고 최대한 반정규화된 FACT 테이블을 설계했습니다. 또한, 이용자가 특정 시점의 데이터임을 명확하게 인지할 수 있도록 테이블마다 기준일자 컬럼을 추가했고, 모수에 대한 정의를 카탈로그에 업데이트했습니다.

현재 4가지 주제 영역에 대해 약 20여 개의 FACT 테이블이 있으며, 대시보드 및 분석에 활발하게 사용되고 있습니다. FACT 테이블은 기존에 데이터를 탐색하던 시간과 복잡한 쿼리로 인한 오류를 많이 줄여주었고, 일관된 기준으로 특정 시점의 지표를 정확하게 측정할 수 있게 해 주었습니다. 자주 추출하는 지표의 경우, 조인이 없어지면서 단순한 쿼리로 원하는 데이터를 확인할 수 있게 되었습니다. 물론 모든 데이터를 DW가 커버할 수는 없으므로, 자주 쓰이지 않는 지표들은 Data Lake를 통해서 조회하고 있습니다.

Copyright © 2024. Codenary All Rights Reserved.