회고노트 20주차 : 프롬프트 엔지니어링

2024. 4. 16. 07:46회고/회고노트(격주)

 

01 LLM - GPT 프롬프트 엔지니어링


1. 이번주 프로젝트 과정에서 가장 많은 시간을 소요한 작업이다.

2. 이번주 내내 데이터 전처리와 프롬프트 수정 작업을 계속했다.

3. test를 하면서 데이터가 튈 수 있는 경우의 수를 차단하는 작업이었다.

4. 예산의 한도가 정해질수록 프롬프트는 정교해졌다.

5. temperature=0으로 두는 프롬프트가 우리에게 더 잘 맞았다.

6. 원하는 데이터 결과물의 형태를 정해주는 작업도 중요했다.

7. 프롬프트 내에서도 반복학습을 시킬 수록 정확도는 올라갔다.

 

02 수준별 학습 : Streamlit


- 프로젝트에 사용하기 위해서 해당 부분을 복습하고 배포해봤다.

- 파이썬으로 웹 페이지를 만들 수 있고, 서비스를 제공할 수 있다는 점이 놀랍다.

- 디자인도 다양하고 쉽게 사용할 수 있고 DB도 연결할 수 있다는 점이 유용하다.

 

03 데이터셋 완성 : 약 19만건의 데이터를 수집, 클렌징


- 대표적인 지도서비스 3사에서 리뷰 데이터를 웹크롤링 했고, 19만건의 데이터셋을 완성했다.

- 우리 팀만이 작업할 수 있는 데이터셋을 단기간에 생성해서 뿌듯했다.

- 그 과정에서 나는 다른 팀원과 다르게 G사의 'Category' 컬럼을 추가해서 수집했기 때문에 전처리 과정에서 음식점에 조금이라도 해당하는 리뷰 데이터는 모두 전처리할 수 있었다.

- 내가 추가한 과정이 데이터를 클렌징 하여 정확도를 높이는데 도움이 되었다고 생각한다.

 

 

04 파생변수 생성 : Feature Engnieering


- 주소 데이터를 수집했으니 이 데이터로 api를 활용해서 경도, 위도, 고도를 구했다.

- 우리 팀은  세 개의 특성값을 이용해서 QGIS를 통해 해당 매장의 경사도를 구했다.

- 피드백 결과는 식당처럼 가족단위로 빵집을 이용하지 않으니 특이하지만 영향력은 낮은 컬럼이었다.

- 하지만 새로운 api로 경도, 위도, 고도를 구해보는 경험을 해볼 수 있어서 좋았다.