[데이터 파이프라인 구축기] 시작
이 프로젝트를 시작한 이유는 기업에서 데이터 인프라를 구축하는 과정을 경험하면서 자신감을 얻고 싶었기 때문입니다. 또한, 고팍스의 Gorocket 프로젝트를 내 방식으로 구축해보고 싶고, 경쟁을 위해 프로그래머스 KDT 1기 데이터 엔지니어링 과정의 최종 프로젝트에 도전하려는 마음도 있습니다. 또한, 시간이 많아질 것을 대비하여 새로운 기술을 사용해보고 싶은 욕구도 있습니다. 프로젝트의 목표는 AWS 클라우드와 도커를 사용하여 데이터 인프라를 구축하고, 데이터 레이크와 데이터 웨어하우스를 구축하는 것입니다. 또한, Spark, Glue, Athena, Airflow 등 다양한 기술을 활용하여 데이터 품질 검증, CI/CD, BI, 알림 등을 구현할 예정입니다. 프로젝트 구조는 간단한 파이프라인으로 도식화되었으며, MWAA를 사용하지 않고 EC2를 선택한 이유와 Athena, Glue를 사용한 이유 등에 대한 질문과 결론은 프로젝트를 진행하면서 해결해보려고 합니다.