GEMMA, LLM, 댓글 긍부정 분석 실습

2024. 3. 28. 08:32학습/머신러닝

 

*뉴노트북 - 승인 - settings - api - create new token 다운 받기
베이스 - 사본저장 - 컨트롤+s
캐글 들어가면 나오는거 복붙해두기
다시 코랩으로 넘어가서 쭉 내리면 유저 네임이랑 키값을 넣기
연결 중 눌러서 지표 연결까지 해본다.
탭 나오는거까지 보기 램이랑 디스크 확인한다.
케라스 3버전 다운받는 두번째 셀까지 실행한다.

*지금 우리는 llm 언어보는거 배우는 중. 핫한 트렌드이니 써보면 좋다.
현재 실제로 많이 사용한다.

케라스 nlp까지 문제 없는거 확인한다.
리뷰 데이터 df인 걸 확인한다.
리뷰 데이터에는 긍부정에 대한 라벨링이 없으니까 1000개이상 사람이 만들어줘야 한다.

코드를 그대로 돌리면 되는데 중요한건 데이터 포맷만 맞추면된다.
llm은 물음과 답변을 데이터로 만들어 넣어줘야 한다. 이걸 우리가 포맷을 만들어 주는 것이다.

아까 저희가 gemma_2b_en라는 모델은 - 에러떴다.

구글에서 만든 llm 최근 모델이다.

최근 오픈소스로 풀렸다.
이 친구가 원래 영어모델이다.
영어 모델인데 놀랍게도 한국말을 좀 할 줄 알아서 사용한다.
학습을 엄청 잘하는 편이다.

prompt = 그냥 던져볼 때 (아직 리뷰 라벨을 안줘서 그렇다.)
이제 gemma_2b_en이라는 모델에 알려줘야 한다. 이것을 파인튜닝이라고 한다.

코드 바꿀 거 없음.

바꿀 거는 epochs=1이라는 거다. 5~10정도 잡아두면 경험상 다 잡았다.
일단 10으로 바꿈.

학습이 된 상태임!!
프롬프트를 넣으면 리뷰들이 저장된 형태를 보여주는거?다.

*이제 바꿔야하는 코드를 알려준다.
우리는 epoch랑 df파일 정도만 바꾸면 된다.

01. 키 넣기
02. 패키지 설치
03. 대회 데이터 주어진 거 받기
04. df 변수에 내가 쓸 리뷰 데이터 넣기
05. 단, 라벨 되어야 함.
06. 데이터만 바꿔주면,
07. 이제 밑에 있는 코드는 그냥 실행하면 된다.
08. 데이터가 바뀌면 젬마2를 (실행해보면 된다?)
09. prompt는 걍 보여주는 식이라 안해도 되고,
10. 파인튜닝은 건드릴 것 없고,

11. 아래에서 epochs=10정도 (loss값이 내가 만족하는 단계까지 epochs를 늘리며 체크)
12. generate에 내가 리뷰를 하나씩 바꿔봐도 되고
13. comment와 label을 달아줘서 아래 tarr_sample.submit에 저장되면 끝이다.
14. 라벨링을 한 1000개 정도 한다. (사람이 학습시키는 부분)

*사용하기~ 여기 주석 부분 빼고 한다. 방법은 벌크 파일 만들어서 넣으면 된다.
f"{review}"해서 반복문 하나씩 돌려도 된다.