2024. 3. 27. 13:28ㆍ회고/TIL(매일)
✏️도전한 점
1. 8시 기분환기, 비전공자 IT책 읽기
2. 10시부터 팀회의 후 클러스터링 상담
4. 점심먹고 크롤링 (구글맵 경로패턴)
5. 데이터 수집 방법 학습 (셀레니움, 뷰숲)
6. GEMMA 사용법 특강 듣기
7. 캐글 토큰 연동 3시간의 고뇌, 노력
01 전담 튜터님의 상담(개인정보 삭제)
Q. 머신 러닝 또는 gpt로 추천 모델을 만들 수 있는 지 궁금합니다.
A. 기본적으로 GPT를 포함한 LLM으로 추천은 "가능"하지만, 굉장히 효율이 나쁩니다. 기본적으로 할루시네이션이 깔려있고, 회사나 팀이 보유하고 있는 데이터를 incontext로 넣어주는 데에 한계가 명확해요.
일반적으로 ML/AI 개발자가 선호하는 방식은 LLM으로부터 embedding vector를 추출하여 이를 feature engineering에 활용하는 방안이에요.
GPT에게 직접 추천을 묻는 방식을 일반적으로 사용하지 않지만, 직관적이기 때문에 많은 분들이 시도하는 모습을 보았지만... 아직은 좋은 결과를 보지 못했네요. 제가 알고 있는 유일한 성공적인 케이스는 알리바바 사례인데, 너무나도 많은 비용이 들기 때문에 일반적으로 시도되긴 어려워 보여요.
추천을 해보고 싶으시다면 그보다는 고전적인 방법론(행렬 분해, DeepFM 등)에 대한 적용을 먼저 해보고, 그 이후에 uplift를 만들기 위해 도전해보는 것이 더 좋아보입니다.
Q. 추천 모델을 통해 다중 결과를 도출할 수 있는지 궁금합니다. (해당되는 사례들을 알고 있어서 될 것 같고 방법을 알아봐야 할 것이라 생각했음.)
A. 정확히 어떤 의미인지 잘 모르겠지만, 보통 추천 모델은 각 유저에 대해 하나가 아닌 최소 수십~수백개의 추천 결과를 만듭니다. 넉넉히 만들어서 필터해도 돼용. 그리고 검색이랑 추천이 굉장히 유사합니다 알고리즘 자체가 :) 실제로 검색/추천 개발자 채용하는 경우도 많아요~!
02 클러스터링 상담
- 최종적으로 수집되어야 할 로우 데이터의 모습이다.
- 데이터는 최소 만 건 단위이고, 컬럼의 수는 20개 이상에서 추려나가길 추천한다.
- 카테고리는 군집화가 정해주는 것이다.
- 컬럼을 10개정도에서 상관관계를 보며 feature 다이어트를 한다. (실제로 이런 단어가 쓰임)
- A가게 하나만 들어가는게 아니라 A가게 행이 엄청나게 많이 들어가서 군집 분석!하는 것이다.
- 리뷰를 가져오면 데이터프레임에 특정 텍스트가 있는 경우라고 UDF를 제작하고 return값을 준다.
- 해당 값이 없는 경우, '해당 없음'으로 처리되는 컬럼을 만들면 된다.
- "슬랙으로 데이터를 쏴준다"는 가능하다 but -> input을 받아서 선택적으론 힘들다.
- 선택적으로 정보를 쏴주는 것은 개발의 영역이다.
03 머신, 딥러닝 정리하기
노트 필기 (차후 추가하기)
04 LLM, 젬마 활용해서 긍부정 분석 실습
GEMMA, LLM, 댓글 긍부정 분석 실습
*뉴노트북 - 승인 - settings - api - create new token 다운 받기 베이스 - 사본저장 - 컨트롤+s 캐글 들어가면 나오는거 복붙해두기 다시 코랩으로 넘어가서 쭉 내리면 유저 네임이랑 키값을 넣기 연결
specialda.tistory.com
05 실습 시작 방법
1. 승인 받고 셋팅으로 토큰을 활용하면 연동된다.
2. 이부분이 토큰을 받고 만료하는 버튼들이다.
3. 베이스라인 코드를 활용해서 실습해본다.
4. 사본을 만들고 내 파일에서 작업한다.
'회고 > TIL(매일)' 카테고리의 다른 글
TIL 101일차 : 스크롤만 하면 된다! (0) | 2024.03.29 |
---|---|
TIL 100일차 : 캐글-코랩 & 크롤링 문제 해결 (0) | 2024.03.28 |
TIL 98일차 : 프로젝트 발제, 팀회의, 기획서 작성 및 제출 (0) | 2024.03.26 |
TIL 97일차 : RFM, 딥러닝, xls와 quotechar🦹🏻♀️ (0) | 2024.03.26 |
TIL 96일차 : 의사결정트리, 랜덤 포레스트, KNN, 부스팅 모델 개념 (0) | 2024.03.24 |