루키찾기 프로젝트 : 24.03.06~24.03.11

2024. 3. 12. 10:59프로젝트/도서플랫폼 루키찾기 예측모델링

 

2024년 3월 6일 (수) 3일차


1. 로우 데이터의 "결측치" 처리 이슈 -> fillna(0)으로 해결

2. K사 크롤링 완료 후, Y사 크롤링 도전

3. 끝이 없는 데이터 전처리 과정

4. TIL 78일차 참고

 

TIL 78일차 : 최종준비 3일차, 판다스입문 2회독 시작

✏️도전한 점 1. 10:00 머신러닝 아티클 읽기 30분 완료 2. 12:00 판다스 1, 2장 2회독 완료 3. 1:30~ SQLD 셀프 요약본 1과목 복습 완료 4. 2:00~ 셀레니움 실습, 데이터 전처리 완료, 데이터 수집 진행 중 01

specialda.tistory.com

 

2024년 3월 7일 (목) 4일차


1. K사, Y사 수집 후 전처리 완료, 아직까지 판다스 회독할 여유가 있음.

2. "예외처리" 구문을 많이 실습했다.

3. 어떻게 하면 코드를 반복해서 쓰지 않을 수 있을까 계속, 계속 고민했던 하루였다.

4. 고민을 하니 판다스 회독하며 배운 내용을 바로바로 써먹을 상황이 생긴다.

5. 고민하고 코드 짜는 과정에서 테이블 concat -> "전치" 하는 법을 배웠다.

 

TIL 79일차 : 판다스 3장 2회독

✏️도전한 점 1. 판다스입문 03장 2회독 완료 -> 데이터프레임 전치 실습 -> 컬럼명 응용 2. 데이터셋 만들면서 전처리 하는 과정을 오래 했음. 3. 전처리 과정에서 다양한 파이썬 구문을 실습 해봄

specialda.tistory.com

 

2024년 3월 8일 (금) 5일차


1. K사, Y사, A사의 데이터를 취합하고 전처리 하는 과정을 반복했다.

2. 새벽에는 SQLD 공부를 따로 하는 중이다.

3. 데이터 전처리 과정에서 얻은 인사이트는 TIL 참고

 

TIL 80일차 : 데이터 취합, 밤샘

✏️도전한 점 1. 데이터를 취합하고 필요한 전처리 과정을 진행했다. 2. SQLD 문제풀이를 통해 요약집을 만들었다. 01 데이터 전처리 문제해결 ㅇㅇ 02 SQLD 문제풀이 요약본 rank 1224 denserank 1223 rownum

specialda.tistory.com

 

2024년 3월 9일 () 6일차


1. 새벽 5시에 일어났다. 시험장에 다녀오고 바로 머신러닝 실습에 들어갔다.

2. 추가 데이터의 수집과 머신러닝 모델지식의 필요성을 절실하게 느꼈다. (이때는 2년치*200)

3. 기존 코드가 유동성이 없어서 유동성 있는 코드를 새벽에 완료했다.

4. 수정된 코드부분은 다시 한번 검토할 것이다. ("사용자 정의 함수"의 중요성)

5. 피곤했지만 새로운 걸 배울 수 있던 시간이 좋았다.

 

TIL 81일차 : SQLD 시험, 2년치 크롤링

✏️도전한 점 1. 판매량에 대한 지수와 숫자형 변수들이 필요했다. 2. 다시 수집해야 할 필요성을 체감했다. 3. 근데 코드가 유동성이 없어서 손이 덜가는 코드를 짜느라 시간을 썼다. 4. 짜두면

specialda.tistory.com

 

2024년 3월 10일 () 7일차


1. 큰일이 났다. 돌려 놓고 잤는데 화면 절전 모드로 돌아가지 않고 있었다.

2. 시간이 오래 걸렸던 이유를 깨달았다. "time.sleep"을 100번씩 하고 있었다.

3. 코드를 수정하고 이번에는 진짜 진짜 최종본 필승 코드를 제작했다.

4. 이번엔 데이터의 "절대적인 양"이 너무 부족했음을 실감했다. 다시 최소 4만 8천개를 목표로 했다.

5. 대신 코드를 유연하게 쓸 수 있었기에 전보다 "빠르게" 코드수정 후 수집했다.

6. 주말에 늦게까지 혼자 있으려니 고독했다, 일요일은 외로운 싸움이었다.

 

TIL 82일차 : sleep 이슈 해결, 목표는 3년치!!

뭐지...?

specialda.tistory.com

 

2024년 3월 11일 (월) 8일차


1. 90퍼센트 정도에서 오류가 나있어서 제외하고 결국 3년치를 수집했다.

2. 끊어서 수집하는 "요령"도 필요함을 느꼈다.

3. 머신러닝 모델의 다양성을 알아두는 것도 중요함을 느꼈다.

4. 돌아보니 거의 수집하고, 전처리하고, 필터하고, 수집하고, 전처리하고, 필터하는 반복의 과정이었다.

5. 시간이 너무 빨리 흘려서 배운 게 없다 생각했는데 이렇게 기록하니 많은 걸 했구나 실감하게 된다.

6. 데이터를 "해석"하는데 아쉬운 점이 남는다. best_rank가 종속 변수임을 깜빡했다.

 

TIL 83일차 : 랜덤포레스트 실습, 허투루 배운 건 없다!

✏️도전한 점 1. 주말에 급하게 크롤링, 수집한 데이터셋의 변수를 수치형으로 모두 변환했다. 2. 변환한 변수를 독립 변수의 X로, 작가의 최고 순위를 Y의 종속 변수로 할당했다. 3. 데이터 스케

specialda.tistory.com