실시간 정산 시스템
코드너리 | 2022. 03. 04
데이터 파이프라인
정산 시스템
사용된 기술:
각 프레임워크의 사용 이유
- Fast API
- 대용량 data streaming이 request 처리 성능 저하와 같은 문제가 없어야 함
- code 자동완성, 코딩 시점에 오류 검출을 위해 type 기반 programming을 지원해야 함
- 코드로부터 OpenAPI(swagger)로 제공이 용이해야 함
- Hive/Presto (EMR)
- RDB, log file 등의 source data를 join 하여 데이터를 가공할 수 있어야 함
- insert뿐만 아니라 select 속도도 빨라야 함
- select 시 aggregation이 대량의 row에 대해서 여러 column에 걸쳐서 빠르게 처리되어야 함
- Argo CD
- Kubernetes의 object를 yaml형식으로 기술하는것과 비슷하게 workflow template를 선언적으로 작성하고 여러 step 또는 task로 연결하여 단순한 순차실행, 병렬실행 뿐만아니라 task 사이의 종속성을 설정하여 복잡한 DAG를 작성하여 실행 시킬 수 있음
- Kubernetes
- 개발팀 구성원들의 선호도
- 특정 vendor의 인프라, 파편화된 OSS를 사용하는 것을 지양
- 커뮤니티로부터 꾸준한 지원을 받을 수 있어야 함
- 동일 기능에 대한 여러 가지 선택지가 있는지