🔎아티클 스터디: 데이터 파이프라인 개념 정리
2024. 7. 17. 10:18ㆍ학습/팀스터디
01 오늘의 아티클
데이터 파이프라인 개념 정리
들어가며 우리는 주로 BI 툴이나 대시보드 툴을 통해 데이터를 확인하고 분석합니다. 하지만 이 데이터, …
playinpap.github.io
02 아티클 정보 요약
- 빅데이터를 지탱하는 기술 책을 바탕으로 데이터 웨어하우스를 주축으로 한 데이터 파이프라인 1번과 데이터 레이크를 주축으로 한 데이터 파이프라인 2번을 설명했다. 1번은 원천 데이터를 장기 보관의 목적으로 ETL프로세스를 거쳐 테이블을 데이터 웨어하우스에 저장한다. 데이터 웨어하우스의 용량이 무척 방대하며 중요도가 높아 함부로 접근하기 어렵다. 그래서 또다시 ETL을 거쳐 데이터 마트에 목적에 따른 테이블을 저장한다. 이렇게 저장된 테이블을 통해 BI툴을 이용해 시각화할 수 있는 것이 1번 데이터 파이프라인이다.
- 2번은 원천 데이터를 어떤 가공도 하지 않고 그대로 흘러오는 대로 데이터 레이크에 수집한다. 이를 필요에 따라 데이터 마트로 가공하게 될 때는 하둡 또는 스파크를 이용한다. 그 이후는 목적에 따라 수집된 테이블을 이용해서 BI툴로 시각화하는 과정까지 1번 파이프라인과 동일하다.
03 인사이트
- 배웠던 개념을 이어가며 이해했던 시간이다. 나만의 언어로 재해석해서 정리해 보니 데이터 파이프라인 두 종류에 대해서는 확실히 이해할 수 있었다. 이를 바탕으로 데이터 엔지니어와 협업할 때 커뮤니케이션에 도움이 될 것이다.
'학습 > 팀스터디' 카테고리의 다른 글
🔎아티클 스터디: R데이터분석과 Python데이터분석 비교 (0) | 2024.07.19 |
---|---|
🔎아티클 스터디: 개발자가 문제 해결 과정에서 겪는 어려움 3가지 (0) | 2024.07.18 |
🔎아티클 스터디: 교란변수에 대해 알아보자 (0) | 2024.07.16 |
🔎아티클 스터디: 데이터를 통해 고객의 행동 패턴 파악하기 (0) | 2024.07.15 |
🔎아티클 스터디: 코호트 분석을 쉽게 설명해보자 (0) | 2024.07.14 |