2024. 4. 23. 23:41ㆍ회고/TIL(매일)
✏️도전한 점
1. 스트림릿 랜덤 가게명 출력 구현 : 파이썬으로 웹페이지를 만드는 데 CSS가 마음대로 안된다. CSS를 다룰 수 있어야 디자인적으로 퀄리티가 높은 웹페이지 구현이 가능한데 이부분에 대해서는 좀 더 학습할 필요가 있겠다.
2. 직무 분석 및 이력서 제출 : 요즘들어 명확하게 내가 뭘 좋아하는지 정의를 내릴 수 있게 되어 간다는 느낌을 받는다. 직무를 분석할 때마다, 공고를 찾아 볼 때마다 이런 사람이 되고 싶다고 그림이 그려지니까 미래를 그리는 항목에 대해서는 이력서도 빨리 써져서 좋다.
01 데이터 파이프라인이란? 외우기
[1] 데이터 파이프라인은 데이터를 수집, 처리, 저장 및 분석하는 일련의 단계를 자동화하는 기술 프로세스입니다.
- 이는 데이터가 원시 형태에서 가치 있는 정보나 인사이트로 변환되는 과정을 포함합니다. 데이터 파이프라인은 일반적으로 데이터 소스에서 수집된 데이터를 다양한 처리 단계를 거쳐 최종 사용자가 사용할 수 있는 형태로 변환하고, 이를 대상 시스템이나 데이터 저장소에 전송하는 과정을 자동화합니다.
- 데이터 파이프라인의 주요 구성 요소 및 단계는 다음과 같습니다:
1. 데이터 수집: 다양한 소스(예: 웹사이트, IoT 장치, 데이터베이스, 파일 시스템 등)에서 데이터를 수집합니다.
2. 데이터 정제 및 변환: 수집된 데이터에서 불필요한 정보를 제거하고, 데이터 형식을 표준화하며, 데이터 품질을 향상시키는 과정입니다. 이 단계에서는 ETL(추출, 변환, 로드)이나 ELT(추출, 로드, 변환) 프로세스가 사용될 수 있습니다.
3. 데이터 저장: 처리된 데이터를 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등의 저장소에 저장합니다. 이 단계에서 데이터는 분석 및 보고를 위해 접근이 용이한 형태로 보관됩니다.
4. 데이터 분석 및 시각화: 저장된 데이터를 분석하여 인사이트를 도출하고, 결과를 시각적으로 표현합니다. 이를 통해 의사결정 과정을 지원하고 비즈니스 전략을 수립할 수 있습니다.
- 데이터 파이프라인의 구축과 관리는 데이터 엔지니어링, 데이터 과학 및 비즈니스 인텔리전스(BI) 분야에서 중요한 역할을 합니다. 효과적인 데이터 파이프라인은 데이터 기반 의사결정을 가능하게 하고, 비즈니스 운영의 효율성을 높이며, 새로운 인사이트와 가치 창출에 기여합니다.
[2] 데이터 파이프라인을 구축함으로써 데이터 과학 및 기계 학습 프로젝트에서 데이터 처리 및 분석 프로세스를 효율적으로 관리하고 유지할 수 있습니다.
- 이는 다음과 같은 여러 가지 이유로 중요합니다.
1. 자동화 및 시간 절약: 데이터 파이프라인은 데이터 수집, 처리, 저장, 그리고 분석 과정을 자동화합니다. 이를 통해 데이터 과학자와 기계 학습 엔지니어는 반복적인 데이터 처리 작업에서 벗어나 더 중요한 분석과 모델링 작업에 집중할 수 있습니다.
2. 데이터 품질 향상: 데이터 파이프라인은 데이터 정제, 변환 및 검증 단계를 포함하여 데이터의 품질을 향상시킵니다. 이는 분석 결과의 정확성을 높이는 데 중요합니다.
3. 재사용성: 잘 설계된 데이터 파이프라인은 다양한 프로젝트나 분석 작업에서 재사용할 수 있습니다. 이는 작업의 일관성을 유지하고 개발 시간을 단축시키는 데 도움이 됩니다.
4. 확장성: 데이터 볼륨이 증가함에 따라 데이터 파이프라인은 쉽게 확장될 수 있어야 합니다. 이는 클라우드 기반 서비스와 같은 현대적인 데이터 처리 기술을 통해 가능해집니다.
5. 실시간 데이터 처리: 많은 기계 학습 및 데이터 과학 프로젝트에서는 실시간 데이터 처리가 필요합니다. 데이터 파이프라인은 실시간 데이터 스트림을 처리하고 신속하게 분석 결과를 제공할 수 있도록 합니다.
6. 복잡성 관리: 데이터 파이프라인은 데이터 수집부터 분석까지의 과정을 체계화하여 복잡성을 관리합니다. 이는 특히 대규모 데이터 세트와 다양한 데이터 소스를 다루는 경우 중요합니다.
- 데이터 파이프라인 구축은 팀의 기술 역량, 프로젝트 요구 사항, 사용 중인 데이터의 종류 및 볼륨에 따라 달라질 수 있습니다. 따라서, 데이터 파이프라인을 설계하고 구축할 때는 이러한 요소들을 고려하여 최적의 접근 방식을 선택하는 것이 중요합니다.
02 단어는 다르지만 유사한 길도 알게 됐다.
- 정확히는 세밀하게 공고를 찾아보는 걸 잊고 있었는데 내가 원하던 직무는 이곳이었다.
- 필요한 기술을 익히는 거에 확실한 이유와 공고와 추진력이 생겼다.
'회고 > TIL(매일)' 카테고리의 다른 글
TIL 127일차 : Streamlit docs (0) | 2024.04.25 |
---|---|
TIL 126일차 : 군집개수 확정하기 (0) | 2024.04.24 |
TIL 124일차 : 검수는 라인그래프, 박스플롯 둘 다 보자! (0) | 2024.04.22 |
TIL 123일차 : np.where을 사용하는 코드 (0) | 2024.04.21 |
TIL 122일차 : 군집번호 라벨링, 스트림릿 회의 (0) | 2024.04.20 |