회고노트 11주차 : 심화 프로젝트와 SQLD

2024. 2. 13. 12:07회고/회고노트(격주)

 

✏️도전한 점


1. 심화 프로젝트 시작

현재 주어진 활동 시간을 어떻게 하면 잘 분배할 수 있을지, 효율을 어떻게 하면 더 높일 수 있을지 일주일동안 다양한 방법으로 시도해 본 흔적들이 TIL에 남아있다. 이번 주는 심화프로젝트를 시작하면서 이론으로만 배웠던 회귀모델에 대해서 실습해보는 시간을 가졌다. 인사이트를 발견하는 분석보다 배운 내용을 복습하며 실행해보는 과정을 겪고 있는데 이 방향이 맞는 건지에 대해서 의문이 든다. 회귀 모델에 대해 어떤 상황에서 사용하는 건지 비교해가며 공부해야겠다.

 

2. SQLD 자격증 공부

하단의 잊지말 점에 메모함.

 

✏️좋았던 점


tips 데이터와 titanic 데이터로만 배웠는데 훈련 데이터지만 전처리가 필요한 wine 데이터로 실습을 해보니 어려운 점이 많았다. 결측치와 이상치를 처리하는 과정이 필수적이고 어려운 것 같다. 가격 예측 모델을 만들기 때문에 용량에 따라 당연히 가격이 높아지겠지만 그것에 대한 기준을 세우고 싶어서 price_per_100ml라는 컬럼을 만들어서 와인 한 잔당 가격을 비교해보기로 했다. A컬럼과 B컬럼을 이용해서 C컬럼을 만들어보며 전처리를 진행하는 과정 또한 재미가 있다.

 

✏️아쉬운 점


다만 예측 모델에 집중하다보니 탐색적 데이터 분석 과정이 미흡해졌다. 전체를 놓고 봤을 때 이부분이 중요한 건데 부족하기에 목요일에 팀원들끼리 전처리 과정을 맞추고 예측 모델을 파트 별로 만들어오기로 했다. 그외에도 필요한 것이 상관관계 분석이다. 이부분을 보충해서 넣도록 해야겠다. 하나에 집중하면 다른 하나를 놓치기 쉬운 것 같다. 그럴 땐 다시 처음으로 돌아가서 데이터 분석 프로세스가 어떻게 이루어지고 있었는지를 다시 한 번 체크해보는 것이 좋겠다.


✏️잊지말 점


민족대명절 설날을 맞아 휴일에는 심화 프로젝트 진행과 함께 SQLD 자격증 시험 준비를 했다. 딱 한달 정도가 남은 기간이었는데 지금까지 코드카타를 배운 역량으로 어느정도 풀 수 있을까 궁금했던 점이 이번 학습을 통해 해결되었다. 이번 시간은 문제를 풀기 위함보다 데이터 모델링을 이해하려고 노력하며 배우는 시간이었는데, 배우다보니 데이터 엔지니어 기술을 이해하기 위한 뼈대가 되는 내용이었다.

 

엔터티, 속성, 관계, 식별자가 무엇인지, 그리고 정규화와 반정규화, DDL, DML, DCL, TCL의 차이점들을 내가 누군가에게 설명한다면 어떻게 쉽게 설명할 수 있을지 고민하며 배웠다. 막연하게 생각했을 때보다 확실히 시간이 필요한 일이었고, 16주 과정에서 8주까지 배우고 나니 SQL 이해를 들어가는데 수월했다. 자격증 시험 전까지 이론을 충분히 학습해두고 문제를 풀어보도록 해야겠다.


✏️시도할 점


  1. 심화 프로젝트 미흡한 결과물 보고, 방향성 상담
  2. 2장 되새김 문제 보충
  3. 4장 되새김 문제 풀이
  4. 기초 학습 과제 풀이 등
  5. 모든 과정이 "나"라는 캐릭터를 레벨업 시키는 과정처럼 느껴진다. 배움의 흥미를 잃지 말자.