2024. 4. 18. 16:36ㆍ회고/TIL(매일)
✏️도전한 점
1. 아침에 군집화, 주성분분석 개념책을 빠르게 훑었다.
2. 클러스터링에 대한 이해정도가 다 달라서 개념이 달랐다! 회의 진행.
3. 내가 궁금한 점: 스크리도표를 가지고 K값과 차원수를 정한다면 차이는?
4. 내가 의견낸 점: PCA는 2차원 시각화 용도로 사용할 수 있다. 맞음.
5. 오전10시, 11시 피드백 후 회의: 실루엣계수가 팀원마다 다른 문제 발생!
6. 해결 방법은 버전을 통일, 이후 스케일러 버전을 나누고 전처리 진행
7. 오후 4시 30분 매장청결도, 친절함지수 상관관계 확인 후 제거해보기
8. 오후 5시부터 30분동안 쿼리 코딩테스트 스터디 진행 후 다시 프로젝트!
01 클러스터링 실습
04.18 K-means clustering 복습 후 실습 (tistory.com)
04.18 K-means clustering 복습 후 실습
01 엘보우 포인트 기준 "군집수=19, 난수=0" 에서 시작한다. 02 이너샤 기준 "K=8"로 시작한다. 03 실루엣계수 기준 "K=6"부터 시작한다. ✏️ 깨달은 점 다닥.. 다닥... 붙어있는.... 어떡하지?
specialda.tistory.com
02 문제 발생
문제: 팀원마다 코드를 돌려 실루엣 계수를 확인했는데 4명 중 나를 포함한 두 명만 값이 같고 나머지는 각각의 값을 도출해냈다. 물론 엘보우 포인트도 달랐다. 반복해도 결과는 같았다. 차이가 무엇일지 생각해봤다.
해결: 우리의 차이는 파이썬 버전의 차이였다. 튜터님께 여쭤보니 파이썬이 업데이트되면 먹통이 되는 경우도 있다고 한다. 파이썬 자체가 예민한 편이니 팀원마다 버전을 맞추고 프로젝트를 진행하는 방향이 맞았다.
03 기타 인사이트
# 튜터님 포트폴리오 첨언
- 이미지를 제거하고 텍스트로 변경한다.
- 프로젝트 부분은 과제의 노션을 참고한다.
- 프로젝트를 했을 때 내가 하는 부분만 말하냐? 아니다. 팀이 한 걸 말해야 한다.
- 팀이 한 부분을 말할 때 결과가 안좋았는데 안좋은 결과도 말해야 하나?
- 최종적으로 지원하실 때 넣든 안넣든 한계점에 대해서 정리는 필요해 보인다.
- 프로젝트 경력을 좋게 보는 회사들도 있어서 회사에 맞춰서 골라서 넣게끔 정리가 필요하다.
- 프로젝트 나열된 것들 중에 최신순으로 했다. 시간을 어떻게 배치해야 하나? 최신순!!
- 하지만, 정리하시다가 포지션마다 우리는 머신러닝 하는 사람 원해요 하면? 머신러닝 프로젝트를 최상단에 배치해준다. 우리는 인사이트/시각화가 메인이라면 그 프로젝트를 최상단에 배치한다.
- 포지션에 따라 원하는 경험들을 상단에 배치한다.
- 데이터 상관없는 분야 -> 데분으로 넘어왔다면? 이전 직무 설명을 논리적으로, 관련있게 해야한다.
- 정량적으로 보여줄 수 있으면 좋다.
- 어떤 경험을 했었는데 정량적으로 파악하고 싶어서 여기로 들어오게 됐고 그래서 캠프를 들어오게 됐고 그래서 캠프를 했더니 나랑 맞더라라는 스토리텔링이 이어져야 한다.
# 수준별 튜터님께 맞는지 여쭤볼 내용
- 비지도학습 > 그룹화 > kmeans 등
- 비지도학습 > 차원축소 > 주성분분석 등
- 둘 모두 거리 문제고 비지도학습이기 때문에 동일한 도구를 사용한다 : 스크리도표, 설명변동량
# PCA를 더 알고 싶다고 말하기
- 시각화 측면에서 PCA를 하고 관련 지표를 보는 것은 축소 전 데이터로 하면 옳다.
# 적합, 변형을 바로 하려면 데이터프레임을 넣어야 한다.
score_ss['slope'] = scaler.fit_transform(score[['slope']])
05 알쿼리즘 스터디 인사이트
# 스터디 준비로 설명해야할 부분 정리
덱 코드는 파이썬의 deque(덱) 모듈을 사용하여 1부터 n까지의 숫자로 이루어진 deque 자료구조를 생성하는 것이다. deque는 양 끝에서의 빠른 삽입과 삭제를 지원하는 자료구조이다. 여기서는 1부터 n까지의 숫자가 순서대로 deque에 저장된다.
# 스터디: 게임에서 했던 방법들을 마케팅에 적용하려니 안맞았다.
- RFM분석은 고객분류 지표의 기준이 확실했다.
- 1등급은 세 지표가 모두 좋은 고객, 2등급은 두개, 3등급은~
# 새롭게 알게된 코드
card.rotate(-1) : append 맨뒤에 해주는 기능
print(*card) : 압축해제
# 데이터분석 자소서 필요한 것 있으면 여쭙기 (457DEEP 사이트)
✏️깨달은 점
1. PCA를 컬럼 압축으로만 생각하면 튜터님의 피드백이 이해가 안될 것이다.
2. 이번에 튜터님의 피드백을 받고 직접 실습해보면서 나는 군집화의 방향, 감을 잡을 수 있었다.
3. 각자 수업받는 튜터님이 다르다보니 이해 정도가 달랐다. 여기에서 오는 문제가 컸다.
4. 나의 경우에는 튜터님의 피드백이 많은 도움을 줬다.
5. 제한된 시간 또한 요소로 작용해서 레이더 차트+pca 방향으로 진행됐다.
'회고 > TIL(매일)' 카테고리의 다른 글
TIL 122일차 : 군집번호 라벨링, 스트림릿 회의 (0) | 2024.04.20 |
---|---|
TIL 121차 : 클러스터링 피드백 (0) | 2024.04.19 |
TIL 119일차 : k-means clustering (0) | 2024.04.17 |
TIL 118일차 : Linux htop, gcloud auth login, 특성컬럼값 검수 (0) | 2024.04.16 |
TIL 117일차 : 데이터 축소(선택과 집중), streamlit, where+between (0) | 2024.04.15 |