전체 글(540)
-
04.23 스트림릿 버튼으로 랜덤한 가게명 출력 구현
01 버튼별 랜덤 스토어명 구현 - 군집별로 sample 함수를 이용해서 버튼에 가게명을 띄울 수 있었다. - sample과 시리즈를 추출하는 iloc를 통해 가게명만 추출하는 코드가 아주 유용하다. random_store = mode_file[mode_file['cluster'] == 0]['Store'].sample(n=3).iloc[0] 02 궁금한 점 1. 버튼 별로 key값을 주면 이 값을 어떻게 활용해서 해당하는 가게 설명을 뽑을 수 있을지? 2. 코드마다 주어진 key값이 없어도 잘 작동하는데 필수로 필요한 상황은 무엇인지? 3. 나도 on_click을 통해 첫 페이지에 버튼을 두 번 누르는 에러를 고쳐볼 수 있을지?\ 4. 나는 CSS를 이용한 버튼 크기 늘리는 게 왜 안되는지? 상하 여백..
2024.04.23 -
TIL 125일차 : 필요한 기술이 무엇인지 알고 배운다.
✏️도전한 점1. 스트림릿 랜덤 가게명 출력 구현 : 파이썬으로 웹페이지를 만드는 데 CSS가 마음대로 안된다. CSS를 다룰 수 있어야 디자인적으로 퀄리티가 높은 웹페이지 구현이 가능한데 이부분에 대해서는 좀 더 학습할 필요가 있겠다. 2. 직무 분석 및 이력서 제출 : 요즘들어 명확하게 내가 뭘 좋아하는지 정의를 내릴 수 있게 되어 간다는 느낌을 받는다. 직무를 분석할 때마다, 공고를 찾아 볼 때마다 이런 사람이 되고 싶다고 그림이 그려지니까 미래를 그리는 항목에 대해서는 이력서도 빨리 써져서 좋다. 01 데이터 파이프라인이란? 외우기[1] 데이터 파이프라인은 데이터를 수집, 처리, 저장 및 분석하는 일련의 단계를 자동화하는 기술 프로세스입니다.더보기- 이는 데이터가 원시 형..
2024.04.23 -
04.22 클러스터링 재회의, 스트림릿 버튼구현
01 클러스터링 군집화 시각화 다음 과정은?# 해석할때는 스케일링을 푼다.- 숫자의 의미가 큰 것들은 스케일링을 푼다. 영 안되겠으면 다시 돌아오기도 한다.# 각 클러스터별로 박스플롯을 그린다.- 리뷰 하나하나를 평균으로 내버리면 손실되는 데이터가 존재하니까.- 박스 플롯은 한눈에 보기 어려우니까 시간만 있으면 다양하게 보는게 좋다.- 박스플롯 먼저 보고 라인차트도 보며 같이 고민해본다. (튜터님마다 다름)# 리뷰수 같은 경우는 로그를 씌우는 것도 좋겠다.- 0 아니면 10000 같은 경우는 로그를 씌워서 스케일링을 한다.- 컬럼별로 스케일링을 할 수 있는 것처럼, 로그 얹어서 스켈링 한다.- 데이터가 너무 치우쳐 있으면 이 컬럼이 내가 중요한거 보다 로그를 먼저 취하긴 한다.- 데이터가 몰린 ..
2024.04.22 -
TIL 124일차 : 검수는 라인그래프, 박스플롯 둘 다 보자!
✏️도전한 점 1. 클러스터링 고민, 실습, 회의를 계속하다. 2. 어려운 부분은 상담을 받음. 3. 클러스터링 후 검수 과정에 대해 상담 받음. 01 팀프로젝트 군집화 완료 - 군집에 이름을 붙이는 과정은 원래 오래 걸리는 과정이라고 하셨다. 팀원이 4명이라 각자 의견을 내고 조정하다가 시간이 많이 걸렸다. 02 프로젝트 과정 기록 04.22 클러스터링 재회의, 스트림릿 버튼구현 01 클러스터링 군집화 시각화 다음 과정은? # 해석할때는 스케일링을 푼다. - 숫자의 의미가 큰 것들은 스케일링을 푼다. 영 안되겠으면 다시 돌아오기도 한다. # 각 클러스터별로 박스플롯을 그 specialda.tistory.com - 오늘은 라인그래프와 박스플롯을 통해 군집화가 잘 이루어졌는지 확인하는 과정을 거쳤다. - ..
2024.04.22 -
회고노트 21주차 : K-means clustering, Streamlit 도전
01 K-means clustering- 정답이 없는 문제에 가장 가까운 정답을 찾고, 이름을 붙이는 과정이다.- 정답이 없다 = 로우 데이터를 보고 해답을 찾는다!- 진득하게 앉아서 답을 찾는 걸 좋아하는 성향이라면 잘 맞겠다👍- 데이터 수집 및 정제를 잘 했다면 금방 찾을 수 있지 않을까 ? 싶다. 02 PCA Plot- 배운 과정이 다르니 팀원과의 이해도가 달랐던 문제가 있었다.- 생각이 다른 부분은 튜터님의 상담을 통해 해결했다.- 값이 살짝 다를 수 있지만 고차원의 시각화 용도로 사용할 수 있다. 02 Streamlit 시각화- CSS 지식이 있었다면 디자인적으로도 완성도가 높은 웹페이지를 구현할 수 있을거란 생각이 든다.- 내부에 데이터를 집어넣는 것은 함수..
2024.04.22 -
04.21 Streamlit 시각화
01 공부해 볼 사항: 정규표현식import repatternl = '(\([^)]=\))'re.sub(patternl, '', '우성기전(주)')- 일단 기본서에 기재된 내용부터 살펴보고 독스를 찾아봐야겠다. 02 튜터님 피드백- 지도에 뜬 가게를 눌러서 정보를 나타내게 하는 기능은 지도가 내게 리턴값을 주고 받는 식으로 상호작용이 되면 가능하다. 현재 잠깐 코드만 봐선 안될 것 같긴 하다. (나중에 구현 하심)- 지금 시안처럼 클릭으로 구현은 모두 가능하다고 본다. - 피피티 시안을 레이아웃으로 만들어놓고 데이터 가져와서 나타내기만 하면 되는 것 아닌가? - 배포하실 때는 같이 파일도 깃허브에 올리면 된다. 깃허브에 파일 용량 제한이 있다.- 대용량이라면 사용하지 않는 컬럼은 ..
2024.04.21 -
TIL 123일차 : np.where을 사용하는 코드
✏️도전한 점1. streamlit 학습 내용을 바탕으로 직접 웹페이지를 제작했다.2. 학습 내용 중에 유용한 전처리 코드를 발견해서 정리했다. 01 전처리 : np.where을 알아보자- np.where 함수는 조건에 따라 배열에서 요소를 선택하는 데 사용된다. NumPy의 np.where는 기본적으로 if-else 문을 벡터화한 형태로 볼 수 있다. - 출력 형식은 NumPy 배열의 문자열 표현 방식 때문이다. NumPy 배열을 출력할 때, 배열 내의 숫자 타입 요소들은 콤마로 구분되어 출력되지만, 문자열 타입의 요소들은 콤마 없이 출력되며, 대괄호([]) 안에 공백으로 구분되어 나타난다. 이는 넘파이의 출력 형식에 따른 것으로, 배열의 실제 구조나 데이터를 변경하지 않는다...
2024.04.21 -
04.20 군집화 마무리 -> ux/ui관점 회의 -> streamlit 공부
01 문제 해결 과정1. 군집화 과정에서 주성분 분석표를 바탕으로 행을 기준으로 컬럼의 특성을 파악할지, 열을 기준으로 컬럼의 특성을 파악할지에 대한 토론을 길게 했다. 나는 기준 1을 바탕으로 컬럼의 특성을 정하는 게 맞다는 입장이었다.2. pca차원에서 랭킹 1, 2, 3을 정해 컬럼의 특성을 정하더라도 그 값이 pca를 잘 설명해줄 수 없다고 생각했다.3. 다같이 회의를 통해 어떤 방향이 맞을지 고민을 했고, 기준 1로 컬럼의 특성을 정하기로 결정했다.4. 군집 번호를 붙이는 라벨링 과정을 진행하니 다음은 ux관점에서 어떤 형태로 서비스를 제공할지 고민했다.5. 그 다음 검색 알고리즘은 어떻게 구현해야할지에 대해서 2:2로 나눠 진행을 할 지 회의를 했다.6. 내가 아침에 구상한 ..
2024.04.20 -
TIL 122일차 : 군집번호 라벨링, 스트림릿 회의
✏️도전한 점 1. 클러스터링 군집번호 특성 설정하기 위한 회의 2. UX관점에서 서비스 배포 방향 논의 3. streamlit회의 후 학습 방향으로 결정 01 최종 프로젝트 회의 방향 04.20 군집화 마무리 -> ux/ui관점 회의 -> streamlit 공부 01 문제 해결 과정 1. 군집화 과정에서 주성분 분석표를 바탕으로 행을 기준으로 컬럼의 특성을 파악할지, 열을 기준으로 컬럼의 특성을 파악할지에 대한 토론을 길게 했다. 나는 기준 1을 바탕으 specialda.tistory.com - 후기: 검색 알고리즘에 대해 오전에 미리 고민해보고 구체적인 의견을 냈는데 통과됐다. - 우리가 배운 내용을 바탕으로 파이썬 함수를 통해 충분히 구현할 수 있는 내용이었다. 02 Streamlit 학습 내용 -..
2024.04.20 -
04.19 클러스터링에 대한 해답을 찾아가다.
01 문제 해결 과정1. PCA plot을 통해 2차원으로 어떤 군집 수가 가장 데이터가 잘 군집이 되는지 확인했다.2. 상관도가 높은 컬럼, 그래프에 영향을 주지 않는 컬럼은 제거했다.3. drop했을 때 나쁜 영향을 (데이터 군집이 섞임) 주는 컬럼은 drop하지 않았다.4. 최대한 군집이 깔끔하게 잘 모일 수 있도록 선정한 결과가 K=4이다.5. 결과: 군집별로 특성을 설명했고, 군집4는 대한민국 빵맛집이 모여버렸다.🥹👍6. 후기: 통계적 지식+내주관을 바탕으로 군집화는 답이 없지만 하여튼 재밌다!! 02 버전5, "군집수=6->5" 클러스터링 결과- 엘보우 포인트=19, 이너샤 값=8~9, 실루엣 계수=4~6를 기준으로 잡고 군집수를 확인해갔다. 03 버전5와 버..
2024.04.19 -
TIL 121차 : 클러스터링 피드백
✏️도전한 점1. 클러스터링 피드백 및 상담 후 해답을 찾다.2. 상담을 정말 많이 받고 피드백이 유용했다. 01 피드백 참고, 프로젝트 기록 04.19 클러스터링에 대한 해답을 찾아가다.01 문제 해결 과정1. PCA plot을 통해 2차원으로 어떤 군집 수가 가장 데이터가 잘 군집이 되는지 확인했다.2. 상관도가 높은 컬럼, 그래프에 영향을 주지 않는 컬럼은 제거했다.3. drop했을 때 나쁜 영specialda.tistory.com ✏️깨달은 점- 이론만으로는 깨닫기 힘든 부분이 많다.- 이론 학습 후 2차는 프로젝트를 통해서 배우는 걸 강력 추천하신 이유를 깨달아 간다.
2024.04.19 -
04.18 PCA plot 피드백, 클러스터링 실습
01 엘보우 포인트 기준 "군집수=19, 난수=0" 에서 시작한다. 02 이너샤 기준 "K=8"로 시작한다. 03 실루엣계수 기준 "K=6"부터 시작한다. 04 군집수 참고자료 05 클러스터링 피드백 모음1. 전담 튜터님: 차원축소만 하는 방향더보기# 군집화 설명- pca의 단점은 뭘 설명하는지 모른 다는 것이다.- 각각의 계수들을 보고 의미를 만들어 낼 수 있으면 만드는데 고차원은 어려움.- 7개의 클러스터가 나왔으니 각각 데이터셋에 라벨링을 다 해주시고- 가게당 하나, 라벨 하나를 붙일 때 하드클러스터라고 한다.- 우리는 소프트 클러스터 -> 하드 클러스터- 기준이 되는 데이터를 정하고 이게 군집이 잘됐는지 판악: 도메인 지식이 중요하다.# 클러스터링 판단 기준1. 지표: 초깃값 세팅할 때 유용하고..
2024.04.18 -
TIL 120일차
✏️도전한 점 1. 아침에 군집화, 주성분분석 개념책을 빠르게 훑었다. 2. 클러스터링에 대한 이해정도가 다 달라서 개념이 달랐다! 회의 진행. 3. 내가 궁금한 점: 스크리도표를 가지고 K값과 차원수를 정한다면 차이는? 4. 내가 의견낸 점: PCA는 2차원 시각화 용도로 사용할 수 있다. 맞음. 5. 오전10시, 11시 피드백 후 회의: 실루엣계수가 팀원마다 다른 문제 발생! 6. 해결 방법은 버전을 통일, 이후 스케일러 버전을 나누고 전처리 진행 7. 오후 4시 30분 매장청결도, 친절함지수 상관관계 확인 후 제거해보기 8. 오후 5시부터 30분동안 쿼리 코딩테스트 스터디 진행 후 다시 프로젝트! 01 클러스터링 실습 04.18 K-means clustering 복습 후 실습 (tistory.com..
2024.04.18 -
04.17 K-means++ clustering, 데이터 클렌징은 계속 된다.
01 문제 해결 과정- 군집화 방법론에 대해서 상담을 받고 방향을 정했다.- 이미 표준화 과정을 프롬프트를 통해 했으니 코사인 클러스터링은 맞지 않다.- 기존 K-means 클러스터링 방법을 사용하기로 하고 스케일러의 종류를 정했다.- EDA과정에서 ‘1’점으로 부여된 컬럼을 확인했고, 기준을 정해 전처리했다.- "판단할 수 없는 경우 ‘1’점으로 부여한다"라는 프롬프트의 영향을 받은 걸로 보인다.- 이와 같이 프롬프트 작업에서 아쉬운 점들이 보인다.- 'Y/N'으로 그 여부를 판단했어야 하는 컬럼값들이 있다. 02 A튜터님 피드백 내용[1] 피드백더보기# K-means 쓰는 게 낫다.- 리뷰를 수치화 했으니까 이 데이터셋을 쓸거면 그냥 K-means 쓰시면 된다.- 컬럼들이 지금 봤을 때는 -100~+..
2024.04.17 -
TIL 119일차 : k-means clustering
✏️도전한 점 1. 클러스터링 상담 및 피드백 2. 데이터 EDA 중 전처리 3. 데이터 클러스터링 4. 군집화 중 궁금한 점 정리 후 마무리 01 피드백 내용 및 프로젝트 과정 04.17 K-means 클러스터링, 데이터 전처리는 계속 된다. 01 문제 해결 과정 - 군집화 방법론에 대해서 상담을 받고 방향을 정했다. - 이미 표준화 과정을 프롬프트를 통해 했으니 코사인 클러스터링은 맞지 않다. - 기존 K-means 클러스터링 방법을 사용하 specialda.tistory.com
2024.04.17 -
04.16 프롬프트 활용한 파생변수 완성 -> 전처리
01 문제 해결 과정 1. 완성한 프롬프트로 api 활용해서 파생변수를 만들었다. 2. 통합 데이터셋 만드는 중 잠깐 시간이 비어서 식당 리뷰에 더 적합하다는 "경사도"컬럼 대신 "행정동"별 "생활인구수"를 넣고자 했다. (자치구 하나의 단위로 데이터가 줄었기 때문이다.) 주소별로 경도, 위도 컬럼을 만들 수 있으니 이에 따른 행정동코드를 부여받고 활용하고자 했으나 시간부족으로 일단 보류했다. 3. 통합 데이터셋을 만들어서 팀원 당 분배했다. 약 3850개 데이터를 나눴다. - 0~3818 / 3819~7637 / 7638~11456 / 11457~끝 4. 리뷰 텍스트 변수에 대해 검수 과정이 다음 날 새벽까지 진행 중이다. 02 프롬프트 아쉬운 점 1. 전처리 한 부분 - None 값이 포함 됐다면 "..
2024.04.17 -
알쿼리즘 스터디 : SQL 문제 내는 날
01 문제 선정 이번 문제는 해당 TIL에서 정리했던 내용을 다루고 있는 문제였다. "비트 단위 논리 연산자"이다. 아래의 글은 비트 단위 논리 연산자를 정리한 내용을 포함한 글이다. 04.02 전처리 문제 해결 과정 01 전체 문제 해결 과정 1. 데이터 merge시 더 많아지는 이유는? info_df에 중복이 있을 것이다(?) 찾아보자. - '솔트 24'의 중복에 있었다. 정확히는 '솔트24', '솔트 24', '솔트 24'가 있다. - 해당 가게는 specialda.tistory.com 비트를 쪼개면 한 명의 개발자에 해당하는 기술스택이 여러개가 되니까 row가 늘어난다. select distinct DE.ID, DE.EMAIL, DE.FIRST_NAME, DE.LAST_NAME from SKILL..
2024.04.16 -
TIL 118일차 : Linux htop, gcloud auth login, 특성컬럼값 검수
✏️도전한 점1. 9시까지 리눅스 명령어 공부2. 9시~10시 경도, 위도로 행정동 코드 구하기 찾기 [보류]3. 쿼리 내면서 내가 풀어봄.4. 14시부터 리뷰텍스트 프롬프트 결과 검수하기<p data-ke-size="s..
2024.04.16 -
회고노트 20주차 : 프롬프트 엔지니어링
01 LLM - GPT 프롬프트 엔지니어링 1. 이번주 프로젝트 과정에서 가장 많은 시간을 소요한 작업이다. 2. 이번주 내내 데이터 전처리와 프롬프트 수정 작업을 계속했다. 3. test를 하면서 데이터가 튈 수 있는 경우의 수를 차단하는 작업이었다. 4. 예산의 한도가 정해질수록 프롬프트는 정교해졌다. 5. temperature=0으로 두는 프롬프트가 우리에게 더 잘 맞았다. 6. 원하는 데이터 결과물의 형태를 정해주는 작업도 중요했다. 7. 프롬프트 내에서도 반복학습을 시킬 수록 정확도는 올라갔다. 02 수준별 학습 : Streamlit - 프로젝트에 사용하기 위해서 해당 부분을 복습하고 배포해봤다. - 파이썬으로 웹 페이지를 만들 수 있고, 서비스를 제공할 수 있다는 점이 놀랍다. - 디자인도 다..
2024.04.16 -
04.15 최종 프롬프트 완성 후 api활용 파생변수 생성 시작
01 "자치구" 선택 : 데이터셋 축소 해결 과정 1. 전담 튜터님과 튜터님의 상담을 받고 데이터 축소를 확정했다. - 크롤링으로 약 20만건의 데이터를 수집했고, 한정된 시간 안에 리뷰 텍스트의 긍부정 분석을 통해 파생 변수를 생성하려다 보니 llm api를 활용하기로 결정했다. - 최종 프로젝트는 군집화를 통해 비슷한 베이커리도 추천하는 검색서비스를 목적으로 한다. 검색 서비스의 정확도를 위해 욕심을 내다보니 api 모델 업그레이드를 원하게 됐다. - 팀원이 합의 가능한 예산의 한도(최대 20만원)를 정했고 4.0으로 모든 자치구에 적용하면 추정된 결제금액이 150만원이었다. 예산 문제로 많은 고민과 기준을 세웠다. - 어중간하게 결과를 내면 군집화의 결과를 제대로 분석할 수 없다는 의견과 하나의 구..
2024.04.15 -
TIL 117일차 : 데이터 축소(선택과 집중), streamlit, where+between
✏️도전한 점 1. 아침 6시 수준별 복습 (자동화) 2. 오전 팀 회의 : 프롬프트 수정작업 3. 마지막 수준별 수업 듣기 4. 점심 이후 3시 다시 팀회의 5. 5시 알쿼리즘 스터디 후 팀회의 6. 9시 프롬프트 작업 완성 후 실행 01 각설이 같이 돌아온 직무 고민 # 튜터님 상담 내용 더보기 더보기 # 마지막 튜터링 - 이제 뭔가 만들어가야 함. 캠프 나가면 나는 아이디어 뱅크가 되어야 한다. - 태블로? 비싸서 안 사 줄 확률이 높다. - 태블로 엔지니어링 직무가 있을 정도로 대중화 되었다. 채용공고 확인 가능. - 장고, 플라스크 굳이? 간단한 스트림릿!!이 있다. - 우대 요건 중에 내게 기술역량이 한 줄만 있어도 좋았던 것 같다. 잘 얘기할 수 있으면. - 사람인/ 원티드 채용공고 공부하기..
2024.04.15 -
TIL 116일차 : 군집화, streamlit 배포, 알고리즘 deque, sql스터디
✏️도전한 점 1. 어제 지도학습, 비지도학습 군집화 실습부분 복습 2. 오늘 streamlit 실습 후, 배포 과정 진행 완료 3. 백준 알고리즘 자료구조(큐) 문제 풀고 라이브러리 학습 01 지도/비지도 학습 노트필기 추후 첨부 02 Streamlit 실습 후 배포 Python 라이브러리 : Streamlit 실습 01 streamlit 실행 여부 확인 02 streamlit 실행 → 코드 변경, 저장 후 새로고침 반복 1. 해당 코드를 터미널에 입력하면 웹 어플리케이션이 기본 브라우저에 뜬다. 2. df 만 입력해도 동일하게 띄울 수 specialda.tistory.com 03 알고리즘 deque 학습 1. 코딩테스트 스터디에서 내가 문제를 낼 차례가 왔다. 2. 2164번: 카드2 (acmicpc..
2024.04.14 -
Python 라이브러리 : Streamlit 실습
01 streamlit 실행 여부 확인 02 streamlit 실행 → 코드 변경, 저장 후 새로고침 반복 1. 해당 코드를 터미널에 입력하면 웹 어플리케이션이 기본 브라우저에 뜬다. 2. df 만 입력해도 동일하게 띄울 수 있다. df = pd.DataFrame({ 'first column': [1, 2, 3, 4], 'second column': [10, 20, 30, 40] }) df - st.write(df) 와 동일하게 작동한다. 3. 표만 넣을 수도, 제목과 함께 넣을 수도 있다. st.write("Here's our first attempt at using data to create a table:") st.write(pd.DataFrame({ 'first column': [1, 2, 3, ..
2024.04.14 -
TIL 115일차
✏️도전한 점 1. 직무 방향에 대한 고민이 커졌다. 2. 오전 10시 중간 발표회 후 피드백이 이어졌다. (~13시) 3. 2시 30분 최종 프로젝트 관련 팀회의를 시작했다. 4. 4시 15분 데드라인을 정하고 회고를 마무리했다. 5. 프롬프트를 수정하고 오후 발표회를 진행했다. 01 프로젝트 진행 사항 04.12 중간 발표회 01 프롬프트 수정사항 기록 - 어제 잘나왔던 프롬프트가 0을 또 내뱉는 문제를 해결한다. - '0' or 'zero'를 제외하는 문장은 해결하지 못함. - 조건을 지정하는 단어는 '대문자'로 시작하고 따옴표로 specialda.tistory.com ✏️잊지말 점 - 팀원들과 개인적인 회고시간을 가지고 얼마만큼 왔는지 돌아보는 시간을 가졌다. - 새삼스럽지만, 요새들어 자주하는 ..
2024.04.12 -
04.11 프롬프트 엔지니어링의 끝이 보인다!
01 피드백 전, 프롬프트 엔지니어링 과정 (결과가 썩 맘에 들지 않음) - "Please exclude the '\n' character from the output" 추가 -> 제거 - "Characteristics:" 이게 특성 이름으로 랜덤으로 잡힌다. -> 제거 - "Print it in a single line." 추가 : \n의 제거가 목적이다. - Output 축소를 위해 예시 형식의 간소화 {"A" : "+10"} -> 적용이 안돼서 제거 - "Exclude zero score." -> output 축소를 위해 추가 - import time, import random 모듈 추가로 대기 시간을 더한다. - "Please separate the output characteristic valu..
2024.04.12 -
TIL 114일차 : 프롬프트 완성 -> 거의 다 왔다.
✏️도전한 점 1. openai api 프롬프트 수정 -> 프로젝트 과정 참고 2. 프롬프트, 워드 임베딩: 튜터님 상담 (~오후 1시) 3. 토큰 소모: 10문장에 0.15달러의 비용이 든다. 4. 팀원은 형태소 분석 중, 나는 프롬프트 수정 5. 오후 4시 리뷰별 중복 텍스트를 발견 후 제거 6. 4시 반 갑자기 이상한 반복문을 보내서 땀나네 7. 오후 5시 피피티, 스크립트 수정사항 추가 8. 스크립트 마지막 추천 모델 제공 방향 첨언 01 튜터님 피드백 # 워드 임베딩: 빵 이름이 들어가는 자리 주변에 비슷한 단어들이 들어갔을거라고 추측을 하는 것이다. 그래서 바게트와 비슷한 단어를 추출할 수 있다. # 빵리뷰에는 튜터님 파일에 있는 nouns나 pos를? 사용해보도록 한다. # 구글에 제미나이를..
2024.04.11 -
04.10 GPT 4.0 터보 모델: 예산 초과 문제 발생 (150만원)
01 문제 해결 과정 1. 프롬프트 특성을 '웨이팅' -> '기다림'으로 바꿨으니 조건도 바꾼다. 2. 시스템 프롬프트를 영어로 제작한다. -> '맛집'이란 단어 해석이 애매하다. 그대로 입력. 3. 처음 명령 순서를 정해주고 이것도 영어로 바꾼다. 4. 영어에서 "다음과 같은 형식으로 출력해줘" 구문을 정확도를 높여 변경한다. 5. 예산 초과의 문제로 프롬프트를 3.5 기준으로 변경하는 작업 진행 02 openapi 코드에 적용하는 과정 : 코드 문제 해결 answer_list = "+10, 0, 0, 0, 0, 0, 0, 0, +5, +5, +7, -5, 0, 0, 0, 0, 0, +7, 0, 0, 0, +5, 0, -3, 0, 0.2, '우유 크림빵, 바질 페스토 샌드위치, 에그 타르트'" resu..
2024.04.11 -
TIL 113차 : 사전투표해서 쉬는 날도 프로젝트
✏️도전한 점 1. 프롬프트 엔지니어링 (gpt 4.0 turbo 기준) 2. 3.5 실행하고 json파일로 제작하는 방법 배움 2. 예산초과 문제 발생 3. 프롬프트 수정 (gpt 3.5기준으로 수정) 01 프롬프트 엔지니어링 04.10 프롬프트 엔지니어링 후 예산 초과 문제 발생 specialda.tistory.com ✏️깨달은 점 1. 프로젝트에서 만들고자 하는 "추천 모델"의 데이터의 정확도를 높이기 위해 프롬프트를 1차적으로 웹에서 수정하게 된다. 웹에서 작동하는 로직과 api에서 작동하는 내부 로직이 다르다는 점을 알아둔다. 2. "프롬프트 엔지니어링"을 통해 파생변수를 생성하고자 할 때 중요한 점은? "데이터프레임"화가 되는 것인가이다. 이를 위해서 데이터를 받는 리스트의 길이가 항상 일정해..
2024.04.11 -
04.09 google api 활용한 feature engineering, gpt prompt engineering
01 문제 해결 과정 1. feature 엔지니어링: 주소를 바탕으로 api를 활용하여 위도, 경도, 고도를 구했다. 2. 남은 과정은 경사도 컬럼을 만드는 것이라 DEM을 일단 다운 받았다. 3. vworld api: 경도, 위도, 고도 free인데 status값이 나오지 않는 문제 4. 구글로 결과를 냈으니 시리즈에 셀마다 적용하는 함수를 만들어보자. 5. 3시 30분부터 프로젝트 회의 후 프롬프트 엔지니어링 작업을 계속했다. 02 Google api를 활용하여 경도, 위도, 고도 구하기 1. 콘솔 페이지에서 이렇게 떠야 사용가능한 상태이다. 2. 위에 보이는 두 개의 API를 활용해 경위도, 고도를 구한다. 3. Geocoding API만 사용하도록 제한이 걸려있다면 추가한다. 4. 아래와 같은 결..
2024.04.09 -
TIL 112일차 : 파생변수 생성, streamlit 웹페이지 생성
✏️도전한 점 1. 오전 이력서 세션 강의 2. google api를 활용하여 주소에 대한 경도, 위도를 바탕으로 고도라는 파생변수 생성하기 3. 팀회의 후 gpt 프롬프트 엔지니어링 4. streamlit 웹페이지 만들기 성공! 01 streamlit 웹페이지 만들기 02) 최종 프로젝트 기록 04.09 최종 프로젝트 : 경도+위도->고도 파생변수 생성 01 Google api를 활용하여 경도, 위도, 고도 구하기 1. 콘솔 페이지에서 이렇게 떠야 사용가능한 상태이다. 2. 위에 보이는 두 개의 API를 활용해 경위도, 고도를 구한다. 3. Geocoding API만 사용하도록 제 specialda.tistory.com
2024.04.09