회고/기타 프로젝트(16)
-
[개인] 데이터 리터러시 : '공유 킥보드' 사라진 파리... 왜?
01 ‘공유 킥보드’ 사라진 파리… 왜?파리시에 공유 전동 킥보드가 지속가능하고 실용적인 교통수단이라는 점을 설득하지 못했고, 유감스럽게도 서비스를 중단하게 됐다.파리시의 퇴출 결정은 공유 전동 킥보드가 시민의 안전을 위협하고 사용 후 아무 데나 방치돼 도시 미관을 해친다는 지적에 따른 것이다.재작년 1월부터 8월까지 247건이던 전동 킥보드 사고 건수는 지난해 같은 기간 30% 이상 늘었고 한해 사망자는 24명에 달했다. 공유 전동 킥보드 '모두' 사라진 파리…왜? (sbs.co.kr) 공유 전동 킥보드 '모두' 사라진 파리…왜?유럽 도시 가운데 처음으로 프랑스 파리에서 공유 전동 킥보드가 사라졌습니다. 파리 사람들이 즐겨 이용하던 이 공유 킥보드가 자취를 감춘 이유는 뭘까요.news.sbs.co.kr..
2024.03.26 -
[개인] 수박 언제 사먹지? 선택과 집중 (feat. open api)
🔎 지난 1년 간의 수박 평균 & 평년 가격 데이터 분석 (feat. open api) 01 데이터 수집, 계기 : KAMIS 일별 품목별 도·소매가격정보 🤓 프로젝트 배경(사담)더보기지난 여름 수박을 정말 많이 사먹었다. 마트나 시장, 과일가게를 주로 이용했고 단기간에 20개 넘게 먹은 것 같다. 계속 먹다보면 어느 순간 물리게 되는데 그쯤이면 여름의 끝물이다. 너무 많이 먹어서 생각안날 정도로 먹긴 했다. 수박에 완전 빠져서 화채 만들어 먹는 블로그 글을 자주 올려 조회수를 지속적으로 올려보기도 했다. 가격 특징을 보자면 제철인 여름에 과일 가게에서 대량으로 들어오는 수박들. 그 중에서 밴드에 가입하면 회원가로 구입할 수 있을 때가 가장 맛있고 저렴했다. 그리고 수박이 비를 맞으면 가격이 좀 저렴..
2024.03.21 -
[머신러닝 프로젝트] 4. 데이터 분할, 문자+수치형 컬럼 변환
01 훈련용/평가용 데이터 분할 02 abv, degree(ex. '12~14') 컬럼 전처리 wine_average 라는 사용자 정의 함수를 제작하였다. pd.isnull() 만약 입력 받은 데이터가 null이면 null값으로 출력하고 함수 종료. split에 대한 개념을 이해하고 있어야 제작할 수 있다. 소수점만으로 이루어진 수치형과 문자형이 섞여 있었기에 소수점 float 변환조건도 추가했다. try는 예외처리 코드를 (except ValueError:) 포함한다. 어떠한 예외도 발생하지 않았을 때 조건의 else를 다음에 추가할 수 있지만 필요치 않았다. apply함수를 이용하여 데이터프레임에 하나씩 적용시켰다. 03 wine_age 의미하는 새 컬럼 생성 후 상관관계 분석 04 r^2 score..
2024.02.16 -
[머신러닝 프로젝트] 3. 단순/다중회귀모델 결과비교
01 다중 선형 회귀 모델 수치형 변수를 독립 변수로, price(가격)변수를 종속 변수로 두고 다중회귀를 시도했다. 02 단순 선형 회귀 모델 비교를 위해서 상관관계가 제일 높았던 body_en변수를 단순 회귀 모델에 적합시켰다. 03 결과 비교 단순 선형회귀모델은 11, 다중 선형회귀모델은 21 (온도/도수 포함: 24) 좋은 모델은 아니지만 다중으로 적합하니 수치가 오른 걸 확인할 수 있었다. 처음에 아무것도 모르고 단순 선형회귀모델에 훈련시켰을 때의 결과다. 0.1에서 머신러닝을 이해하고 24까지 끌어올렸다. 목표는 40이상이다. 어떤 방법이 있을지 고민해본다. 04 번외 body 타입 별로 평균 가격을 확인하니 타입이 높을 수록 가격이 올랐다. 바디와 가격의 상관관계를 의미하는 걸까? 다음엔 달..
2024.02.14 -
[머신러닝 프로젝트] 2. 워크 플로우(피드백 추가)
01 수치형 변수로 상관관계 분석 02 범주형 변수(type/year2) 03 피드백_주튜터님 추가적으로 할 것: "다중공선성" 체크 -> 다중 선형 회귀가 우선이다. 변수를 선택할 때, VIF 10이상인 변수는 드랍해 줌. (좀 더 회귀적) 상관계수가 "0.2 ~ 0.3" 이라고 해서 무조건 낮은 수치가 아님. 실무에서는 상관관계 트렌드가 있어서 낮다고 무조건적인 수치는 아님. 판단 기준에 따라 0.3이면 높다고 보는 경우도 있다는 말이다. 현재는 하나의 데이터셋만 가지고 분석하기에 통상적인 해석을 추가하면 좋겠음. 일반적인 범주에 대한 설명 추가한다. 예를 들어, 일반적으로 수치가 0.n이상이면 높다고 판단한다. 상관관계 분석할 때 한 컬럼이 결측치가 있다. 이때 해결 방법은? 결측치 비중을 보고 또..
2024.02.14 -
[머신러닝 프로젝트] 1. 현재 상황(상담 준비 자료)
01 다시 시작하는 머신러닝 실습 프로젝트_상관관계 분석부터 [문제 발생] 주말에 wine type 컬럼을 top3과 others 값으로 인코딩(이때 원핫인코딩 하지 않음.)하여 선형회귀, 로지스틱 회귀를 적용해보았다. 목표에 맞는 모델을 선택해야 하는데 현재 진행 방향이 잘못되었다는 걸 깨닫고 다시 처음으로 돌아갔다. 새로운 마음으로 시작하는 머신러닝 실습 해보는 프로젝트🥹 1. price : 목표는 "와인 가격 예측" 이므로 회귀모델을 사용할 것이다. 새로운 데이터가 들어올 때 ml 데이터가 없다면? 기존에 새로 만든 price_per_100ml 컬럼이 만들어지지 않는다는 의견을 수용하여 가격을 price 그대로 사용하기로 했다. (거의 대부분의 데이터가 750ml 고정이라 크게 차이가 없었다.) 2..
2024.02.13 -
[심화 프로젝트] 준비 - 산점도, 히스토그램
01 데이터 살펴보기 미리보기 🔎해결 과정 1. 데이터셋 살펴보기 2. 가격정보 비교를 위해 'price_per_100ml' 컬럼을 생성💡 3. price 결측치 제거 4. 변수별 모델링에 필요한 카테고리 구분 02 price_per_100ml의 히스토그램 그리기 등 도전 미리보기 🔎문제 발생 1. 이상하게 높은 가격을 제거해야 함. 데이터 쏠림이 너무 심함. 03 1차 팀회의 기록 04 프로젝트 body 선형회귀 모델링 적용 후기 : r2_score 값이 5로 모델을 바꿔볼 필요가 있겠다. 05 초기 피드백
2024.02.07 -
[심화 프로젝트] 준비 - '와인 가격 예측' 주제 선정
01 관련 브런치 와인 가격 예측 (brunch.co.kr) 와인 가격 예측 경제학자 올리 아센필터 교수의 상관관계 분석 | 프린스턴대학의 경제학 교수이자 와인 애호가이기도 했던 올리 아센필터(Orley Ashenfelter)는 왜 어떤 해는 와인 가격이 올라가고, 어떤 해는 내려 brunch.co.kr 요약 4월~9월 평균 기온 8월~9월 강우량 수확 전해 10월~3월 강우량 와인의 나이 네 개의 변수가 와인의 가격과 상관관계가 있다. 02 프로젝트 방향 시중에 판매되고 있는 와인 데이터를 살펴보고 가격 예측을 진행하기 더 나아가서 내 취향에 맞는 와인을 추천하는 모델에 대해서 고민하기 03 프로젝트 주제 와인 가격 예측 Regression(회귀모델)을 활용해 가격 예측 진행 (심화) 와인 추천 모델 ..
2024.02.06 -
[심화 프로젝트] 준비 - 팀장, 팀노션 작성 및 제출
1. 개인 TMI 정보를 공유하며 공통점을 찾고 팀명을 정한다. 브레인스토밍 방법이 제일 빠름. 서로에 대한 사전 정보도 공유하게 되고 아이스 브레이킹 타임이 될 수 있음. 2. 각자 쓴 TMI 정보는 노션에 공유하며 내용을 계속해서 확인할 수 있도록 했다. 3. 팀 약속을 시간 중심으로 정해두면 회고나 프로젝트 회의가 편해진다. 4. 팀 목표도 정해서 전반적인 성취 목표를 달성하고 의욕을 고취시킬 수 있도록 했다. 5. 마지막으로 데일리 스크럼을 작성하며 서로의 학습 진도도 자연스럽게 확인하고 공유할 수 있도록 했다. 끝
2024.01.22 -
[기초 프로젝트] 회의 내용, 피드백 모음
01 회의 과정 복기(메모장에 남은 것만) 프로젝트 투표당첨 내용참고 성별, 연령대별로 프로모션 반응도 확인 (제일 반응 높은 성별 및 연령대를 집중 타겟 목표) 앱 설치일 기준으로 오랫동안 가입된 유저 신규 유저별 반응도 확인 최종 목표 : 수입 증대를 위해 어떤 고객에게 제안을 보내야하는지 고객 세분화하기 1차 회의 내용 쿠폰 사용률이 50퍼가 안된다. 쿠폰을 받았는데 보지도 않고 쓰지도 않은 사람들. 쿠폰을 받기는 했는데 보기만하고 안쓴 사람들 -> 소득수준을 체크 쿠폰을 받고 실제로 쓴 사람들 듀레이션 타임이 너무 짧았나? 쓴사람들은 할인율의 영향을 많이 받는 사람들인가? 가설대로 소득이 높아서 쿠폰의 영향을 미치지 않는 그룹이 있었다면 전체 매출액에 참여 비중을 확인해보고 이사람들이 쿠폰 없이도..
2024.01.18