logo
logo
실시간 정산 시스템
코드너리  |  2022. 03. 04
데이터 파이프라인
정산 시스템
사용된 기술:
fastapi-image
argocd-image
docker-image
presto-image
content

각 프레임워크의 사용 이유

  1. Fast API
    - 대용량 data streaming이 request 처리 성능 저하와 같은 문제가 없어야 함
    - code 자동완성, 코딩 시점에 오류 검출을 위해 type 기반 programming을 지원해야 함
    - 코드로부터 OpenAPI(swagger)로 제공이 용이해야 함
     
  2. Hive/Presto (EMR)
    - RDB, log file 등의 source data를 join 하여 데이터를 가공할 수 있어야 함
    - insert뿐만 아니라 select 속도도 빨라야 함
    - select 시 aggregation이 대량의 row에 대해서 여러 column에 걸쳐서 빠르게 처리되어야 함
     
  3. Argo CD
    - Kubernetes의 object를 yaml형식으로 기술하는것과 비슷하게 workflow template를 선언적으로 작성하고 여러 step 또는 task로 연결하여 단순한 순차실행, 병렬실행 뿐만아니라 task 사이의 종속성을 설정하여 복잡한 DAG를 작성하여 실행 시킬 수 있음
     
  4. Kubernetes
    - 개발팀 구성원들의 선호도
    - 특정 vendor의 인프라, 파편화된 OSS를 사용하는 것을 지양
    - 커뮤니티로부터 꾸준한 지원을 받을 수 있어야 함
    - 동일 기능에 대한 여러 가지 선택지가 있는지
Copyright © 2024. Codenary All Rights Reserved.