TIL 114일차 : 프롬프트 완성 -> 거의 다 왔다.

2024. 4. 11. 18:41회고/TIL(매일)

 

✏️도전한 점


1. openai api 프롬프트 수정 -> 프로젝트 과정 참고
2. 프롬프트, 워드 임베딩: 튜터님 상담 (~오후 1시)
3. 토큰 소모: 10문장에 0.15달러의 비용이 든다.
4. 팀원은 형태소 분석 중, 나는 프롬프트 수정
5. 오후 4시 리뷰별 중복 텍스트를 발견 후 제거
6. 4시 반 갑자기 이상한 반복문을 보내서 땀나네
7. 오후 5시 피피티, 스크립트 수정사항 추가

8. 스크립트 마지막 추천 모델 제공 방향 첨언

 

01 튜터님 피드백


# 워드 임베딩: 빵 이름이 들어가는 자리 주변에 비슷한 단어들이 들어갔을거라고 추측을 하는 것이다. 그래서 바게트와 비슷한 단어를 추출할 수 있다.


# 빵리뷰에는 튜터님 파일에 있는 nouns나 pos를? 사용해보도록 한다.


# 구글에 제미나이를 사용하면 5월초까지 무료이다. 호출은 랭체인 라이브러리를 사용할텐데 그냥 구글 제미나이 키 받아서 신청하면 무료이다. 꿀팁!


# 튜터님이 주신 제미나이 & 워드임베딩 참고 링크
https://teddylee777.github.io/gemini/gemini-doc-search/

 

Google Gemini Pro API를 활용한 문서 검색 및 임베딩 가이드

Google의 Gemini Pro API로 문서 검색과 임베딩을 수행하는 방법을 소개합니다.

teddylee777.github.io

 

02 프로젝트 과정 기록


 

04.11 프롬프트 엔지니어링의 끝이 보인다!

01 피드백 전, 프롬프트 엔지니어링 과정 (결과가 썩 맘에 들지 않음) - "Please exclude the '\n' character from the output" 추가 -> 제거 - "Characteristics:" 이게 특성 이름으로 랜덤으로 잡힌다. -> 제거 - "Print it

specialda.tistory.com

 

03 인사이트


# 중복 처리는 groupby+first()로도 가능하다.

df.groupby(['ID', 'Review_text']).first().reset_index()


# 형태소 분석, 워드 클라우드 참고 링크
https://baekant.tistory.com/8

 

[Word Cloud] 형태소 분석을 통해 워드 클라우드 생성하기

(2021년 6월 23일 기준) 크롤링을 통해 수집한 csv에서 '일반'/'고유' 명사를 추출하여 워드 클라우드 생성 from collections import Counter #데이터의 개수를 정리할 수 있는 모듈 from konlpy.tag import Kkma #형태

baekant.tistory.com

 

# 자연어 처리, 워크 클라우딩 참고 링크
https://velog.io/@shlee2227/goai2305311

 

데이터 분석 - 자연어 처리와 Word Cloud 시각화

교육 명: 경기미래기술학교 AI 교육 교육 기간: 2023.05.08 ~ 2023.10.31오늘의 커리큘럼: 빅데이터 기초 활용 역량 강화 (5/10~6/9) - 데이터 분석강사: 조미정 강사님 (빅데이터, 머신러닝, 인공지능)강의

velog.io