2024. 4. 17. 01:50ㆍ프로젝트/빵맛집 추천서비스 웹배포
01 문제 해결 과정
1. 완성한 프롬프트로 api 활용해서 파생변수를 만들었다.
2. 통합 데이터셋 만드는 중 잠깐 시간이 비어서 식당 리뷰에 더 적합하다는 "경사도"컬럼 대신 "행정동"별 "생활인구수"를 넣고자 했다. (자치구 하나의 단위로 데이터가 줄었기 때문이다.) 주소별로 경도, 위도 컬럼을 만들 수 있으니 이에 따른 행정동코드를 부여받고 활용하고자 했으나 시간부족으로 일단 보류했다.
3. 통합 데이터셋을 만들어서 팀원 당 분배했다. 약 3850개 데이터를 나눴다.
- 0~3818 / 3819~7637 / 7638~11456 / 11457~끝
4. 리뷰 텍스트 변수에 대해 검수 과정이 다음 날 새벽까지 진행 중이다.
02 프롬프트 아쉬운 점
1. 전처리 한 부분
- None 값이 포함 됐다면 "정보없음"이나 "결측치" 처리를 해야 사용할 수 있겠다.
- "['""None""']" 형식으로 출력된 내용들은 깔끔하게 정리했다.
2. 만족한 점
- "비꼬는 말"도 인식하고 적당한 점수를 부여했다.
- "음료"에 대한 내용은 확실히 알아듣고 부여했다.
- "라떼", "커피" 맛있음을 잘 인지한다.
- "동물 동반" 언급에 관한 것은 제대로 부여했다. (but 다른 것도)
- "맛있다"를 제외하고, 전체적 정확도가 높게 나왔다.
- "가성비"를 인지하고 "Price" 특성 점수를 부여했다.
- "존맛", "존맛탱", "JMT"를 인지하고 부여했다. (but 랜덤 결과)
- Gpt4.0터보 모델은 커피모양 "이모티콘"도 인지한다.
- '직원분이 고객이 감사하다고 인사하는 동안 한마디도 안한다' 마이너스 잘줬다.
3. 아쉬운 점
- 전체로 봤을 때, "맛있다"점수를 제대로 부여하지 못함.
a. "맛있다"라는 주어가 없을 때 0점
b. "맛있다"라는 주어가 "빵"의 종류인지 모를 때 0점
c. 간헐적으로 파이/타르트 를 인식하는 점
d. 특히 에그타르트를 인식하지 못하는 점
- "가격대가 있다" 를 긍정적으로 부여함.
- "반려동물"을 가게에서 키우는데 -100점을 부여함.
- "종합쇼핑몰"에 해당하는 가게 즉, 카테고리별 전처리가 안된 점.
- 부정적인 텍스트가 길어지면 관계 없는 특성 점수를 부여할 수 있다.
a. 그래서 "청결"에 대한 부정적인 점수도 부여된 적 있다.
- 빵 이모티콘은 인식하지 못한다.
- wait = "기다림이 있음"이 -50이 맞을까?에 대한 의문점이 든다.
a. 노시니어존, 노키즈존, 비건, 통밀, 예약 사항은 Y/N으로 부여했어야 하는게 맞다고 생각한다. 긍부정 지수에 따라 옵션유무 점수가 나뉘는 것은 말이 안된다고 본다.
03 전처리, 아쉬운 점 추가
# 종합쇼핑몰에 대한 전처리가 부족해서 비연관 리뷰는 삭제
- 베이크신세계본점: 지오다노, 남성 타이즈, 백화점 슈퍼 삭제
- 성원푸드몰
- 슐스타드현대시티아울렛동대문점
# 가격과 다르게 빵이 맛있어요 : '-50' 오류
# '계산미스가 있음.'이 price '-100'일까?
# 맛에 대한 언급이 없어도 단골, 자주 방문이 빵집 리뷰에 가장 중요한 점수가 될 수 있지 않을까? 리뷰의 정체성이 아닐까에 대한 의문이 든다.
# 나는 '빵이 짱커요'는 '가성비'로 볼 수 있겠다고 생각한다.
# 인지하지 못하는 리뷰 텍스트 모음
- '맛집', '최고맛집'을 인지하지 못한다.
- '맛난', '지구 뿌셔요', '하트 이모티콘', '아시겠어요?' 잘 모른다.
- '개성있는 장소'를 모른다.
- '삥'을 인식하지 못한다.
- '디저트'를 인식하지 못한다.
- '따봉 이모티콘', '추천해요' 인식하지 못한다.
# '가게가 쾌적하다' = '넓고', '깨끗하다'로 동시에 (내가) 부여했다.
# '펫에 대한 불쾌함'은 동반 입장에 대한 '마이너스 점수'를 준다.
- 다시 말하지만 프롬프트 결과물을 Y/N으로 했어야 맞다.
# 나는 '좌석 많음'과 '매장 넓음' 이 중복된, 애매한 컬럼이라고 생각한다.
# '사진전'이라는 리뷰에 '포토' 점수 '100'점으로 부여한 점이 오류
'프로젝트 > 빵맛집 추천서비스 웹배포' 카테고리의 다른 글
04.18 PCA plot 피드백, 클러스터링 실습 (0) | 2024.04.18 |
---|---|
04.17 K-means++ clustering, 데이터 클렌징은 계속 된다. (0) | 2024.04.17 |
04.15 최종 프롬프트 완성 후 api활용 파생변수 생성 시작 (0) | 2024.04.15 |
04.11 프롬프트 엔지니어링의 끝이 보인다! (0) | 2024.04.12 |
04.10 GPT 4.0 터보 모델: 예산 초과 문제 발생 (150만원) (0) | 2024.04.11 |