2024. 4. 16. 07:46ㆍ회고/회고노트(격주)
01 LLM - GPT 프롬프트 엔지니어링
1. 이번주 프로젝트 과정에서 가장 많은 시간을 소요한 작업이다.
2. 이번주 내내 데이터 전처리와 프롬프트 수정 작업을 계속했다.
3. test를 하면서 데이터가 튈 수 있는 경우의 수를 차단하는 작업이었다.
4. 예산의 한도가 정해질수록 프롬프트는 정교해졌다.
5. temperature=0으로 두는 프롬프트가 우리에게 더 잘 맞았다.
6. 원하는 데이터 결과물의 형태를 정해주는 작업도 중요했다.
7. 프롬프트 내에서도 반복학습을 시킬 수록 정확도는 올라갔다.
02 수준별 학습 : Streamlit
- 프로젝트에 사용하기 위해서 해당 부분을 복습하고 배포해봤다.
- 파이썬으로 웹 페이지를 만들 수 있고, 서비스를 제공할 수 있다는 점이 놀랍다.
- 디자인도 다양하고 쉽게 사용할 수 있고 DB도 연결할 수 있다는 점이 유용하다.
03 데이터셋 완성 : 약 19만건의 데이터를 수집, 클렌징
- 대표적인 지도서비스 3사에서 리뷰 데이터를 웹크롤링 했고, 19만건의 데이터셋을 완성했다.
- 우리 팀만이 작업할 수 있는 데이터셋을 단기간에 생성해서 뿌듯했다.
- 그 과정에서 나는 다른 팀원과 다르게 G사의 'Category' 컬럼을 추가해서 수집했기 때문에 전처리 과정에서 음식점에 조금이라도 해당하는 리뷰 데이터는 모두 전처리할 수 있었다.
- 내가 추가한 과정이 데이터를 클렌징 하여 정확도를 높이는데 도움이 되었다고 생각한다.
04 파생변수 생성 : Feature Engnieering
- 주소 데이터를 수집했으니 이 데이터로 api를 활용해서 경도, 위도, 고도를 구했다.
- 우리 팀은 세 개의 특성값을 이용해서 QGIS를 통해 해당 매장의 경사도를 구했다.
- 피드백 결과는 식당처럼 가족단위로 빵집을 이용하지 않으니 특이하지만 영향력은 낮은 컬럼이었다.
- 하지만 새로운 api로 경도, 위도, 고도를 구해보는 경험을 해볼 수 있어서 좋았다.
'회고 > 회고노트(격주)' 카테고리의 다른 글
회고노트 22주차 : Streamlit 80% 이해완료, 웹페이지 틀 제작 끝 (0) | 2024.04.29 |
---|---|
회고노트 21주차 : K-means clustering, Streamlit 도전 (0) | 2024.04.22 |
회고노트 19주차 : 크롤링 & 자동화 (0) | 2024.04.07 |
회고노트 18주차 : Selenium web-crawling (0) | 2024.04.01 |
회고노트 17주차 (0) | 2024.03.24 |