2024. 3. 26. 23:10ㆍ회고/TIL(매일)
✏️도전한 점
1. 크롤링 selenium, beutifulsoup 실습
2. 이상치, 결측치 처리하는 방법을 시계열/비시계열 데이터로 나누어서 학습
3. 최종 프로젝트 주제 선정 팀회의 - 다수의 상담
4. 개인이동장치(PM) 철거에 대한 주제를 브리핑 했음.
5. 데이터 리터러시 단기 프로젝트로 전환하려고 함.
01 selenium, beutifulsoup, 이상치, 결측치
02 프로젝트 주제 관련 상담
[ㅅㅎ 튜터님, 매니저님 종합 의견]
1. 입지 추천을 하신 다음 슬랙으로 매일 보내라고 한다.
2. 빵집은 분류까지인 듯? 추가되어야 할 듯하다.
3. 입지분석은 이미 분석을 어느 정도해서 데이터 부족?이 문제 << 제일 괜찮아 보임
4. 지구 이대로 괜찮은가? 날씨 데이터 다 가져온다는거보다는 비나 강수 해보는거도 좋음.
5. 킥보드 사용량을 조사하고 진짜 전체 키보드/ 실제로 얼마나 사용하고 있는지 체크.
6. 빵집1표, 입지분석1표
[ㅎㅅ 튜터님]
1. 빵집 이미 너무 많이 한다.
2. 입지는 도메인 성격이 너무 강하다. 인프라를 다루는 곳이 생각보다 많이 없다. 내부 프로세스는 좋다.
3. 날씨 예측이 되게 어려운 과정 중 하나이다. 재미나게 풀어낼 수 있는 방법이 어플을 만들면 괜찮다. 분석 리포트로는 괜찮은데 최종 프로젝트급은 아쉽다.
4. 따릉이가 사라지는 현황이나 지도 추가된 자료를 더해서 한번 해본다. 소재만 보면 한 번쯤 해본거 같은데, 이게 사라지는 스토리 텔링이 신선해서 이걸 추가한다. 단, 결과가 안나오거나 흐지부지 될 수 있다. 머신러닝으로 갈 수 없고 데이터 리터러시 쪽으로 가야한다. 주말 이틀 밤새면 만들 수 있다. (리뷰 긍부정 따로 배우기)
5. 우리나라 출산율 문제 0.65 를 향상시키는 방법, 분석 리포트 생각 중
6. 시계열이 아니라 행정동 별로 나뉘었으면 빵집이 낫다. (데이터 양의 문제)
7. 시계열로 풀어나갈 수 있다면 가능한 최종 프로젝트는 입지분석이다.
8. row가 1만개는 있어야 머신 러닝이 돌아간다.
9. 빵집으로 가면 다들 많이 하지만 차별화가 있으면 좋겠다.
+ 내일 리뷰 긍부정 7시 방문
[ㅅㄱ 튜터님]
1. 빵집분석
- 내 지역을 중심으로 추천하는 것을 1번을 바꿔볼 수 있겠다. (업그레이드)
- 배달앱, 이커머스에서 할 법한 추천인 것 같다.
- 주제를 바꿔서 해봐도 좋을 것 같다.
2. 행복주택, 입지분석
- 2번도 괜찮을 것 같다.
- 부동산에 관심이 있다면 해 볼 만하다.
1. 빵집은 트렌드를 봐도 좋겠다. 빵집 순위가 자주 바뀌니까 트렌드를 볼 수 있으면 좋겠다.
2. 내가 있는 지역에서 급상승하는 가게는? 빵집으로 치환해서 적용해본다.
3. 리뷰 분석하면 빵집 별 특징이 있다.
4. 저라면? 전국 중 하나의 빵집 찾기가 아니라 내가 원하는 위치에서 갈 법한 곳들을 내가 원하는 취향을 기반으로 추천하는 시스템을 만들 것 같다.
ex) #디저트#분위기#지역 : 태그로 입력값 을 받으면 그런 리뷰가 있던 곳을 추천하는 것도 좋다.
- 스트림릿을 활용하면 충분히 프로토타입 같이 만들 수 있겠다.
- 어려울 것 같다면? 2번도 좋은 주제이다.
- 결론은 빵집이나 주제는 누구나 할 법하고 조금 바꾸면 좋겠다.
[ㅊㅂ 튜터님]
1번. 귀엽고 직관적이다. 대신 주제를 복잡화한다.
카테고리도 리뷰에서 찾을 수 있다. 메뉴별로 탑을 뽑을 수 있을 것 같고,
대신 크롤링이 과연 얼마나 쉬울까에 대한 고민이 있다.
해결 방법은 POC를 먼저 간단하게 해본다. (= 부분만 크롤링 해보고 가능성을 확인)
데이터가 문제 없다면 주제를 복잡화한다.
일단 주제가 정해진다면 > 기술적을 봐도 되니까
먼저 의미있는 주제 찾기가 조금 더 중요하지 않을까? 생각한다.
2번. 어려울 것 같다. 대학생 때도 핫플레이스 분석도 하고, 회사에서도 하고 있음.
업종별로 하면 다 달라서 쉽지 않고 하나로 할 것이다.
데이터가 일자별로 있는지? X
분기별로 나온다면 의미있는 profit 찾기가 어렵다.
감성분석은 뭔가? 긍부정이다.
어떤 데이터의 긍부정인가 궁금하다.
tip) 이제는 api로 하는 추세잖아. 공부할 시간 부족하면
부족한 부분에 대해서 gpt를 참고해서 진행해도 좋다.
내가 외식업을 한다면 행정동 단위 구분도 범위가 크다고 생각한다.
(범위를 좁혀야 한다는 말)
+ 빵집 리뷰: 뽈레(양이 적지만 바이럴이 적음)랑 캐치테이블이 있다.
[ㅈㅅ 튜터님]
- 챗지피티 API 생성형 AI/ 진짜 챗지피티 API 활용법 책 작성 및 추천해주심.
- gpt한테 프롬프트로 특정 리뷰의 긍정/중립/부정 여부 확인해달라고 하면 알려주실 수 있다.
- 가격은 어제 얘기한대로 토큰 형식으로 매겨지는 것이다.
1번 주제
- 리뷰 자체를 읽고 생성형 AI 모델을 붙여서 이 리뷰가 긍정인지 부정인지를 판단해주는게 가능해졌음
- 그렇게 했을 경우 좀 더 트렌디해질 것 같음
- 책 - ‘진짜 챗 GPT API 활용법’
2번 주제
- 시계열 데이터 예측 모델 정확성이 떨어짐
- 분기별 데이터로는 유의미한 예측 모델을 만드는 건 쉽지는 않을 꺼임
- 최종 프로젝트니까 한계로 남기는건 좀 아쉬움. 성능을 보여주는게 좋음
- 차라리 분류모델이 낫지 않을까하는 생각임
- 감성분석해서 어떤 데이터를 크롤링하겠다는 것인지 의문임
[ㅈㅁ 튜터님]
1번 주제
- 독특하긴 함
2번 주제
- 공모전 주제로 많이 나오는 주제이긴 해서 흔할 수 있음
- 레퍼런스가 많음
- 배운걸 다 해볼 수 있는 주제이긴 함
- 최적 입지 분석은 여러 도메인에서 활용될 수 있음
- 코로나 기간은 별도로 봐야 함
[ㅇㅅ 튜터님 종합 의견]
빵이 재밌을 것 같다. 좀 더 대상이 집약 됨. 2번은 포괄적이라 1번 추천!
[기타 인사이트]
- 실무에서 코로나 데이터를 아예 안본다. 정확성을 위해서 보지 않음.
- 배달 업계는 로그데이터가 많아서 괜찮음.
- 2번의 시계열 예측 모델? 정확성이 떨어짐.
- 분기별로 나뉜 데이터 자체가 유의미 하지 않음.
- 2번은 한계가 아쉽다.
- 2번은 분류보델이 낫지 않나? 싶다.
- 감성분석..?
- 카페는 크롤링이 안된다.
- 생성형 ai 모델을 챗gpt를 통해 3단계로 할 수 있다.
- 단, 돈이 든다. 얼마 안듬.
- 내일 할 일: 구글맵, 카카오, 네이버, 뽈레, 캐치테이블 체크
'회고 > TIL(매일)' 카테고리의 다른 글
TIL 100일차 : 캐글-코랩 & 크롤링 문제 해결 (0) | 2024.03.28 |
---|---|
TIL 99일차 : 팀회의, 구글맵스, 젬마 (0) | 2024.03.27 |
TIL 97일차 : RFM, 딥러닝, xls와 quotechar🦹🏻♀️ (0) | 2024.03.26 |
TIL 96일차 : 의사결정트리, 랜덤 포레스트, KNN, 부스팅 모델 개념 (0) | 2024.03.24 |
TIL 95일차 : 이력서 작성, SQLALCHEMY DFtoDB (0) | 2024.03.23 |