logo
logo
멀티 프로덕트 데이터 파이프라인
코드너리  |  2022. 03. 01
데이터 파이프라인
로그 수집
실시간 스트리밍
사용된 기술:
googlefirebase-image
googlebigquery-image
redash-image
googledatastudio-image
content

아키텍쳐 Q&A

  1. 컨텐츠가 업데이트 될 때 마다 주기적으로 서빙 시스템에 반영할 수 있을까?
    Airflow DAG 구성을 통해 Daily, Weekly 데이터 파이프라인 구성이 가능 데이터 변경에 대한건 Smart sensor를 통해서 감지하고, 파이프라인 실행이 가능
  2. 데이터 형태가 바뀔 때 Side-effect 추정을 할 수 있을까?
    Airflow 2 TaskFlow 스팩에서는 DAG 구성에 Task의 흐름이 곧 데이터의 흐름을 의 미한다. 따라서 Task 중 일부의 데이터 형태가 바뀌더라도 그로 인해 어떤 다른 Task들이 영 향을 받을지 알고 대응할 수 있다.
  3. 수 많은 데이터 소스의 비정형 데이터를 보관하고 연구에 사용 가능할까?
    BigQuery는 정형으로 데이터를 보관하지만, 데이터를 로드하는 과정에서 JSON 스키마를 파싱하고 그에 맞는 스키마를 감지할 수 있다. 또한 Complex struct 컬럼 타입을 지원하기 때문에 복잡한 문제 정보를 보관하고 연구용으로 사용하기 알맞다.
  4. 데이터 웨어하우스 운영에 비용을 절감할 순 없을까? 
    - BigQuery는 기본적으로 정량 요금제이기 때문에 사용한 만큼 비용을 지불한다.
    - Table partitioning & clustering을 통해 요금을 최적화 할 수 있다.
    - GCP Billing Report를 통해 비용 모니터링 파이프라인 구성을 고민
    - 너무 많은 스캔이 필요한 데이터셋은 Slot 계약을 고민
Copyright © 2024. Codenary All Rights Reserved.