전체 글(540)
-
04.08 20만건 데이터 수집완료, 팀원과 전처리 하는 중
01 월요일 팀프로젝트 과정 1. 데이터 통합 전 전처리 과정 - 가게 이름 띄어쓰기(공백) 제거 (나) - 추가 프랜차이즈 제거 (나, 팀) - 리뷰 내용이 없는 경우 정보없음 처리하기 (팀) - 리뷰 내용도 없고 리뷰 스코어도 없으면 행 제거 (팀) 2. 가게명 통일하기 3. 대형마트 입점 빵집은? # 상담 결과: 기준 세워보는 과정은 좋다. 하지만 지우기 시작하면 끝도 없다. - 홈플러스, 이마트 고로케 고민했었음. - 어느 지역에나 있는 건 빼고, 입점 어디에 있는진 상관하지 말기! 4. 실제 작업 정리 - 프랜차이즈 추가 확인 후 제거 - 투썸, 이디야, 디저트39, 엔제리너스, 컴포즈, 공차, 풀바셋, 카페베네, 커피베이, 크리스피 체크 - 스타필드 : 제거, 가게명부터 빵집이 아니다. - (..
2024.04.08 -
TIL 111일차 : KNN, SVM, 프로젝트 데이터 전처리
✏️도전한 점 1. KNN, 서포트 벡터 머신을 분류/회귀로 실습해본다. 2. 최종 프로젝트 : 데이터 전처리 part_1 (각각 맡아서 진행했다.) 01 성능의 차이 : "종마시다"의 의미를 유추해봐. 1. GPT-4.0 2. GPT-3.5 02 서포트 벡터 머신 - 회귀모델 궁금한 점 # 수준별 복습 5회차 # 우리가 feature extraction을 언제 배웠는지 생각해보기? # 데이터 불러오기 데이터 프리프로세싱 = 전처리 피쳐엔지니어링, 피쳐셀렉션, 피쳐익스트렉션 데이터 분리, 데이터 스케일링 모델링ㅡㅡㅡㅡㅡ 트레이닝(fit) ↑ 하이퍼파라미터튜닝 평가ㅡㅡㅡㅡㅡㅡ infrencing submission # 기울기: 'w'를 구하기 위해 첫 번째 단계에서 얻은 합계를 두 번째 단계에서 얻은 합계..
2024.04.08 -
회고노트 19주차 : 크롤링 & 자동화
01 웹크롤링 실습 1. 기억에 남는 건 크롤링과 수준별 학습이다. 그 중에서도 크롤링에 많은 시간을 쏟았다. 2. 최종 프로젝트이니 다른 팀과는 다른 데이터를 만져보고 싶었다. 3. 이제껏 정재된 데이터셋을 사용했다면 지금은 웹크롤링을 할 줄 알게 되었으니 실습을 시작했다. 4. XPATH로 text를 크롤링 할 수 없어서 시작부터 당황했지만 테트리스처럼 해냈다. 5. 한정된 시간 중 가끔 잘못 끼워 맞출 때도 있지만 비어있는 부분을 새로 학습한 코드로 채워나갔다. 6. 오늘로써 통합된 데이터셋을 만들어 깃허브에 공유할 수 있었다. 해냈다! 02 데이터 자동화, scikit-learn 학습 1. 수준별 학습으로 데이터 파이프라인과 머신러닝 지도학습을 배웠다. 2. 데이터 전처리부터 가볍게 시작해서 머신..
2024.04.07 -
04.07 크롤링은 끝. 데이터 전처리 시작. (feat.factorize)
01 문제 해결 과정 # 오늘 아침 확인하니 크롤링 완료 - 어제(중구,동대문구,강남구,성북구,마포구) 오늘(은평구), 서대문구(기존)해서 크롤링 완료. # 오늘 데이터 전처리 내용 모음 - '정보없음'이 가게명으로 수집된 info체크 - value_counts(), lambda 이용한 중복 데이터(시리즈) 체크 - map/filter 메서드를 이용한 중복 데이터프레임 체크 - groupby 메서드를 이용한 가게별 중복 리뷰text 체크 - drop_duplicates를 이용한 중복된 row 체크 후 제거 - contains를 이용한 '음식'점에 대한 리뷰 체크 후 제거 - 음식점이라면 실제 리뷰를 확인해보고 빵집인지 더블체크 - 프랜차이즈 대형 빵집, 커피전문점은 수집 목적에 부합하지 않아서 제거 - ..
2024.04.07 -
TIL 110일차 : 데이터 전처리 시작
✏️도전한 점 1. 크롤링 그만하고 데이터 전처리 시작 2. 백준 파이썬 알고리즘 문제 1개 완료 01 크롤링 완료 > 데이터 전처리 > 통합파일 제작 04.07 크롤링은 끝났다. 데이터 전처리 시작한다. 01 문제 해결 과정 1. 어제(중구,동대문구,강남구,성북구,마포구) 오늘(은평구), 서대문구 그냥 쓰기해서 크롤링 완료. 2. 중복 업체로 인한 겹치는 데이터 제거 3. 카테고리 "식당" 관련 데이터 제 specialda.tistory.com 02 알고리즘 인사이트 # input()으로 입력을 받을 때 문자열로 받는다는 것 기억하기! ✏️깨달은 점 1. 웹크롤링이 일주일만에 끝날 줄 알았는데 끝이 아니었다. 2. 애초에 불가능할 거라 생각했던 첫 날에서 많이 발전했다. 3. 웹과 모바일 접속이 혼용되..
2024.04.07 -
04.06 종로구에서 크롤링 하다가 멈췄다. (feat.map,filter)
01 문제 해결 과정 1. 아침 종로구 절반에서 멈춤. 스크롤을 다 내리지도 못하고 시간은 285분이 찍힘. 자세히버튼 프린트도 없음. - 몽핀에서 멈춰있었다. new height의 위치를 이동함. - 자세히를 누르면 나오는 길이 갱신 때문에 난 에러인지? 솔직히 이거 말곤 모르겠다. 무한 로딩이었을까? - print(f"자세히 버튼을 {num}번 클릭했습니다.")를 실행하지도 않고 코드실행이 완료되었다고 끝내버렸다면 그 이유가 뭘까? 2. 소득수준이 높을 수록 백화점에서 빵을 산다. 라는 인사이트를 얻었다. 3. 팀원분 112번째 "안국" 가게에서 구글이 에러나면서 크롤링이 멈췄다. 111까지 merge 완료. 4. 중구, 동대문구, 강남구, 성북구, 마포구, 종로구 완료 02 종로구 코드 문제 해결 ..
2024.04.06 -
TIL 109일차 : 크롤링 완료
✏️도전한 점 1. 유동인구 기준으로 8개구를 선정했고, 모두 크롤링을 완료했다. 2. 전처리 과정만 남음. 01 전처리 해야할 부분 1. 중복 업체로 인한 겹치는 데이터 제거 2. 카테고리 "식당" 관련 데이터 제거 3. 인근 지역도 같이 수집됐는지 여부 체크하고 제거 4. 프랜차이즈 파리바게뜨, 뚜레쥬르 제거 5. 가게 이름에 공백 제거하기 02 크롤링 문제 해결 과정 04.06 종로구에서 크롤링 하다가 멈췄다. 01 문제 해결 과정 02 문제가 된 코드 문제 행동 1. 가게 정보를 수집했고, 리뷰 버튼과 정렬도 다 눌렀음. 2. 근데 스크롤을 다 못내림. 3. 시간은 285분이 찍혀있음. 4. 에러가 안났음. 끝남. 궁금한 specialda.tistory.com 1. 요약: 아침에 종로구에서 1/2..
2024.04.06 -
04.05 크롤링 '자세히' 클릭 코드 추가 및 기타 진행 사항
01 문제 해결 과정 1. 별점이 없으면 정보/ 리뷰 버튼이 아예 없어서 에러가 뜬다. 대기 100초 아래 코드를 약간 수정했다. - 밤에 돌리고 잤을 때 발생, 처음엔 몰랐는데 같은 부분에서 멈추길래 발견했다. 2. 튜터님의 첨언: 스크롤 이동 → '자세히' 버튼을 반복하면서 꼭! 누른다. 3. '정보없음' 가게가 1200개 리뷰 긁거나 하면 나온다. 랜덤으로. 은평구, 마포구 재확인하기. - merge를 위한 index number를 따로 달아야겠다. - 리뷰와 정보를 긁는 거에 웨이팅 코드 부여했다. - 스크롤에 시간을 더 줘야겠다. 4. 넘버링 번호가 nan값이다. print는 잘된다. - 리스트로 넣어야 반복되는 형태의 자료형으로 인식하고 데이터프레임이 된다. 5. 여유롭게 시간을 부여해서 에러..
2024.04.05 -
TIL 108일차 : OPENapi 인증키 받고 Python으로 실행하기
✏️도전한 점 1. 수준별 수업 학습: 머신러닝 지도학습 학습 2. 데이터 파이프라인, 자동화 실행을 배웠다. 3. 크롤링 '자세히'버튼 생략했는데 다시 추가했다. 4. 팀회의: llm모델을 활용해서 긍부정 점수를 test 했다. 5. LAG, 스트림릿은 개념을 학습했고, openapi를 사용하는 방법에 대해 배웠다. 01 크롤링 진행 상황, 인사이트
2024.04.05 -
04.04 크롤링 문제 해결 과정
01 문제 해결 과정 1. 추가적으로 더해야 할 데이터를 수집하는 코드를 빨리 짠다. - 작성자 아이디, 작성일 추가 수집, 리뷰 not in 조건 빼고 수집->정보없음 처리 - 와이파이 이슈로 다른 코드로 대체됐다. 2. 주소 데이터 추가해서 한번에 merge까지 시키기 - 같이 작동할 수 있도록 코드 만들기 > 자동화된 코드의 완성 3. 데이터 적재 시점에 대한 데이터 컬럼 추가 - to_datetime을 이용해서 현재 시간을 추가했다. 4. result = [] 초기화 시점을 잘못 잡아서 pass했더니 결국 문제가 생겼다. - 첫 리뷰에 텍스트가 없고 '정보'버튼만 있으면 result를 못찾아서 정렬 전으로 재배치했다. - 드디어 해결! 02 크롤링 작성자, 작성일 드디어 찾았다. - 세분화 해서 ..
2024.04.04 -
TIL 107일차 : 크롤링 와이파이 이슈
✏️도전한 점 1. 팀원 회의 2. 11시 팀원 수준별, 튜터님 상담, 프로젝트 블로그 정리 3. 점심먹고 팀 2차 회의, 계속된 크롤링 01 프로젝트 과정 기록 + 인사이트 04.04 크롤링 문제 해결 과정 (tistory.com) 04.04 크롤링 문제 해결 과정 01 문제 해결 과정 1. 추가적으로 더해야 할 데이터를 수집하는 코드를 빨리 짠다. - 작성자 아이디, 작성일 추가 수집, 리뷰 not in 조건 빼고 수집->정보없음 처리 - 와이파이 이슈로 다른 코드로 specialda.tistory.com 02 와이파이 이슈 1. 공들여 코드를 짰는데 와이파이 문제로 다른 코드로 대체했다. 2. 프로젝트 결과물엔 문제가 없었지만, 대량 크롤링에 적합하지 않음을 깨닫다.
2024.04.04 -
04.03 전처리, 크롤링 문제 해결 과정
01 문제 해결 과정 1. [전처리] "솔트24", "솔트24", "솔트 24" 통일 시키기 - 성대점, 혜화본점, 북촌점은 네이버지도 참고 2. [전처리] 중복 되는 '솔트24'는 리뷰 데이터 수를 갱신 시키고 삭제 3. [전처리] "서울특별시"로 시작하지 않는 데이터 정리 4. [전처리] 주소가 전치 되어있는 경우 직접 변경 5. [전처리] 본점 위치 띄어쓰기 맞춰주기 6. [전처리] 리뷰 데이터에 개행문자(\n) 삭제하기 7. [크롤링] 작성자, 작성일자, 리뷰 수집 해보기 02 중복 데이터 삭제, 명칭 통일 03 리스트안에 텍스트를 1.복제, 2.적재하고 싶을 때 04 데이터 전처리 인사이트 # 부정 연산자 + 논리 연산자(비트단위) info = info.loc[~con2|~con3] # 인덱스 ..
2024.04.03 -
TIL 106일차 : 작성일, 작성자 수집해보기
✏️도전한 점 1. 데이터 전처리 (수준별) 복습 2. 리눅스 언어 (수준별) 학습 3. 블로그 프로젝트 인사이트들 정리 (미루지 말기!) 4. 데이터 수집 (작성자, 작성일자 수집) -> 내일로 01 크롤링 문제 해결 과정 04.03 크롤링 문제 해결 과정 01 문제 해결 과정 1. 02 중복 데이터 삭제, 명칭 통일 03 리스트안에 텍스트를 1.복제 2.적재하고 싶을 때 specialda.tistory.com 02 데이터 전처리 복습 노트 필기 (차후 추가)
2024.04.03 -
04.02 전처리 문제 해결 과정
01 전체 문제 해결 과정 1. 데이터 merge시 더 많아지는 이유는? info_df에 중복이 있을 것이다(?) 찾아보자. - '솔트 24'의 중복에 있었다. 정확히는 '솔트24', '솔트 24', '솔트 24'가 있다. - 해당 가게는 각각의 리뷰를 수집했을 것이다. 하나로 합쳐야겠다. - 118개의 빵집 리스트가 되면 된다. (전처리 전) 2. 중복 가게를 쉽게 찾는 방법이 있나? 왜 value_counts 안되지? - 속성이 아니라 메소드이기 때문에 value_counts()를 하면 됐다. 3. 전처리(1) 평점에 괄호 삭제, 정보없음 처리 > 자료형 int 변환 - 메소드 체이닝을 활용해서 간단하게 한 줄로 처리한다. 4. 전처리(2) 주소에 대구가 있네? 종로구 포함하지 않는 행을 삭제한다. ..
2024.04.02 -
TIL 105일차 : 데이터 수집, 전처리, #데이터프레임의길이
✏️도전한 점 1. 팀원 별 오류사항 회의 2. 이력서 세션 강의 듣기 3. 데이터 전처리 4. 사이킷런 파트 수준별 강의 듣기 5. 데이터프레임 인덱스 정리 01 데이터 프레임 인덱스 : 헷갈려서 정리했다. 1. dataframe 자체의 길이는 rows수 = index 길이와 같다. 2. 인덱스도 컬럼도 리스트처럼 사용할 수 있다. 3. values메소드는 row를 리스트에 담아줘서 이중 인덱스로 하나씩 꺼낼 수 있다. 4. 컬럼명을 명시해서 인덱스로 요소를 추출할 수 있다. 02 프로젝트 대비 : 데이터 전처리 복습 이상치, 결측치 전처리 - 노트 필기 (차후 정리) 03 이력서 세션 정리 1. 5분 기록보드 잘 정리해두면 나중에 면접에 유용하다. 2. 텍스트를 2차적으로 정재해서 답변에 활용한다. ..
2024.04.02 -
04.01 크롤링 문제 해결 과정 - 1차 수집 완료
01. 문제 해결 목록 1. info 리뷰가 1개인 것만 review_df, merge_df가 되어 있는 데이터프레임 적재 문제 해결 - 왼쪽행이 하나니까 머지하면 하나된다. 이거 같은데? - 데이터 프레임을 정석순서로 만드니까 해결됐다. 2. 큰 문제는 아니긴 한데 except 아래에 result=[]리셋이 print에 영향을 주는 부분은? - 이유가 뭐지? 아, 쉬웠다. 예외처리가 실행된건 하나라도 예외가 발생해서였다. 3. 마사마드레에서 자꾸 '최신'버튼을 누르는 문제 해결 - 리뷰를 누르는지 안누르는지 정확치 않은데 리뷰안누르는 것 같아서 리뷰 xpath로 바꿨다. - 번외. 혹시 몰서 유저 에이전트도 다시 바꿨는데 크롬 버전으로 하니까 다운 추천창 없어졌다. 4. 리뷰 클릭 버튼에서 랜덤으로 멈..
2024.04.02 -
TIL 104일차 : 월요일도 크롤링 all_day
✏️도전한 점 1. 오전 프로젝트 팀 회의 2. 강의 듣기, 판다스 ai, 아티클 팀원 공유 3. 컨디션 난조ㅜㅜ 3. 오후 2시부터 크롤링, 다음날 완성함 4. 오후 5시 코딩테스트 스터디 코드리뷰 5. 욕심낼 수 있는 부분 내일 체크하기 01 웹사이트 리뷰 정책 확인 02 크롤링 문제 해결 과정 04.01 크롤링 문제 해결 과정 - 1차 수집 완료 01. 문제 해결 목록 1. info 리뷰가 1개인 것만 review_df, merge_df가 되어 있는 데이터프레임 적재 문제 해결 - 왼쪽행이 하나니까 머지하면 하나된다. 이거 같은데? - 데이터 프레임을 정석순서로 만드 specialda.tistory.com 03 1차 데이터 수집 완료 (2시간) 04 코딩테스트 스터디, map함수 변수 매칭 1. 나..
2024.04.01 -
회고노트 18주차 : Selenium web-crawling
01 도전한 점1. 크롤링 강의를 듣고 리뷰 웹사이트 크롤링을 도전했다.2. nn번의 시행착오 끝에 마무리가 되는 것 같다.3. 마지막 도전은 데이터프레임을 완성시키는 것이 될거다. 02 어려운 점1. By메소드에 대해 이해도가 높은 상태에서 진행했으면 더 수월했겠다 생각한다.2. CSS 선택자에 대해 처음 배웠고 실습해보는 과정이기도 했다.3. 해당 과정에서는 요소 추출이 너무나 어려웠다.4. HTML, CSS에 대한 최소한의 지식을 정규로 습득하는 게 좋겠다. 03 잊지말 점1. 이론과 실습은 너무나 다르다.2. 부딪혀서 해결하는 과정이 중요하다고 본다.3. 해결까지의 과정이 지난한 건 분명하다.4. 하지만 해결된다면 무엇과도 비교할 수 없는 도파민이 기다리고 있..
2024.04.01 -
TIL 103차 : 업체 리뷰 분리하고 코드 통합하기
✏️도전한 점 1. 업체 리뷰를 성공적으로 분리했다. 뿌듯. 2. 둘로 나뉜 과정을 하나로 합칠 수 있을까? 3. 위의 코딩 작업 결과는 가능하다! 4. 모든 코드를 작성하고 효율적으로 재작성하고 싶다. 01 크롤링 문제 해결 과정 03.31 일요일 크롤링 문제 해결 과정 01. 리뷰 내에서 업체 답변과 고객의 리뷰가 같은 경로에 속한 문제 해결! 깨달은 점: 하나를 해결하면 다른 문제가 내 앞을 가로막는데 또 해결이 되네? ID말고 tag를 사용했다. 02. 상점을 XPATH로 specialda.tistory.com ✏️깨달은 점 1. 문제를 해결하면 다음 문제가 나를 기다리고 있다. 2. 해결할 때까지 잠을 못자겠다. 3. 제일 문제는 무한로딩이었는다. 4. 해결했지만? 또 로딩 걸릴까봐 켜두고 못자..
2024.03.31 -
03.31 일요일 크롤링 문제 해결 과정
01. 리뷰 내에서 업체 답변과 고객의 리뷰가 같은 경로에 속한 문제 해결! 깨달은 점: 하나를 해결하면 다른 문제가 내 앞을 가로막는데 또 해결이 되네? ID말고 tag를 사용했다. 02. 상점을 XPATH로 클릭했는데 CSS로 바꾸고 싶은데 안되더라고🥹 깨달은 점: 지금 쓰면서 깨달은 건데 클릭하기 위해서는 유일 경로여야 할 것 같다. 03 셀레니움 공식 문서 확인하기 Install a Selenium library Setting up the Selenium library for your favourite programming language. www.selenium.dev 03. 통합 과정까지 만들었으나 새로운 문제의 발견🥹 시도할 점: 리뷰가 1개인 상점의 리뷰만 딱! 골라서 수집하는 이유를 추측..
2024.03.31 -
03.30 토요일 크롤링 문제 해결 과정
01. 목요일 실전 크롤링 TIL 100일차 : 캐글-코랩 & 크롤링 문제 해결 ✏️도전한 점 1. 프로젝트 크롤링 관련으로 셀레니움, 뷰숲 복습 2. keras 버전 맞춰서 긍부정 코드 돌아가게 하기 3. 오후 1시 : 갑자기 캐글, 코랩 연동 문제 해결됨 4. 좋은 데이터셋 찾는 법 특강 specialda.tistory.com 02. 금요일 실전 크롤링 TIL 101일차 : 스크롤만 하면 된다! ✏️도전한 점 1. 오늘한 학습: 지도맵 크롤링에서 기본정보 크롤링 50개 이상, 수준별 머신러닝 학습 2. 해결한 문제: 인덱스 반복(지역변수), 매우 어려웠던 리뷰 크롤링(find_all) 3. 깨달은 점: 크 specialda.tistory.com 03. 동적 페이지의 반복 스크롤 동적으로 콘텐츠가 로딩..
2024.03.31 -
SQL 코드카타 : 69, 70, 71, 72번 문풀 > 보류 > 진행
01 깨달은 점1. OFFSET은 일반적으로 LIMIT 절과 함께 사용되어 결과 집합에서 가져올 행의 시작 위치를 지정하는 데 사용된다. 예를 들어, 특정 테이블에서 10개의 행을 가져오되, 처음 5개의 행을 건너뛰고 그 다음 10개의 행을 가져오고 싶다면 OFFSET을 사용할 수 있다. 아래의 쿼리는 employees 테이블에서 employee_id를 기준으로 정렬한 후, 결과 집합에서 5번째 위치부터 시작하여 최대 10개의 행을 반환합니다. SELECT * FROM employeesORDER BY employee_idLIMIT 10 OFFSET 5;2. SQL 쿼리 작동 순서 FROM-WHERE-GROUPBY-HAVING-SELECT-ORDERBY-LIMIT/OFFSET 3. join역할 쿼리문을 실..
2024.03.31 -
TIL 102일차 : Iframe에 대한 깨달음, 리뷰 크롤링 성공과 문제
✏️도전한 점 1. 학습 내용: Iframe과 같은 역할을 하는 코드를 찾아서 리뷰의 스크롤을 내리길 시도했다. 문제를 해결하고 리뷰 내용을 수집하는 코드를 짜는 과정에서 새로운 문제 발생과 해결을 반복했다. 2. 해결한 점: 크롬 다운로드 추천 창이 새로 떴는데 코드를 보니 이때까지 찾은 Iframe이었다. 이게 무슨 일일까? 덕분에 다른 접근을 할 수 있었다. 프레임을 나눌 필요가 없기에 해당 코드만 찾으면 된다는 것을 깨닫고 제대로 짤 수 있었다. 3. 깨달은 점: 실제로 네이버 지도를 보니 프레임에 해당하는 xpath가 깔끔하게 나뉘어 있었기에 더 찾으려고 노력했었다. 하지만 없으면 없는 이유가 있으니 시야를 넓게 보도록 해야겠다. 4. 잊지말 점: 리뷰를 수집하는 과정에서 문제를 해결할 때 좀 ..
2024.03.30 -
TIL 101일차 : 스크롤만 하면 된다!
✏️도전한 점 1. 오늘한 학습: 지도맵 크롤링에서 기본정보 크롤링 50개 이상, 수준별 머신러닝 학습 2. 해결한 문제: 인덱스 반복(지역변수), 매우 어려웠던 리뷰 크롤링(find_all) 3. 깨달은 점: 크롤링 하기 전에 공식 문서 확인했어야 했다. 반성한다. 4. 어려운 점: 스크롤을 frame별로 변경, 지도맵 api 사용하기🥹🥹 4. 시도할 점: 기본정보 크롤링 while True 제한 두기, 수준별 복습하기 01 선택자 (XPATH 불가할 때 넘어오시오) - ID 선택자: # 기호를 사용하여 특정 ID를 가진 요소를 선택합니다. 예: #QA0Szd - 클래스 선택자: . 기호를 사용하여 특정 클래스를 가진 요소들을 선택합니다. 예: .w6VYqd - 태그 선택자: 태그 이름을 직접 사용하여..
2024.03.29 -
GEMMA, LLM, 댓글 긍부정 분석 실습
*뉴노트북 - 승인 - settings - api - create new token 다운 받기 베이스 - 사본저장 - 컨트롤+s 캐글 들어가면 나오는거 복붙해두기 다시 코랩으로 넘어가서 쭉 내리면 유저 네임이랑 키값을 넣기 연결 중 눌러서 지표 연결까지 해본다. 탭 나오는거까지 보기 램이랑 디스크 확인한다. 케라스 3버전 다운받는 두번째 셀까지 실행한다. *지금 우리는 llm 언어보는거 배우는 중. 핫한 트렌드이니 써보면 좋다. 현재 실제로 많이 사용한다. 케라스 nlp까지 문제 없는거 확인한다. 리뷰 데이터 df인 걸 확인한다. 리뷰 데이터에는 긍부정에 대한 라벨링이 없으니까 1000개이상 사람이 만들어줘야 한다. 코드를 그대로 돌리면 되는데 중요한건 데이터 포맷만 맞추면된다. llm은 물음과 답변을 ..
2024.03.28 -
TIL 100일차 : 캐글-코랩 & 크롤링 문제 해결
✏️도전한 점 1. 프로젝트 크롤링 관련으로 셀레니움, 뷰숲 복습 2. keras 버전 맞춰서 긍부정 코드 돌아가게 하기 3. 오후 1시 : 갑자기 캐글, 코랩 연동 문제 해결됨 4. 좋은 데이터셋 찾는 법 특강 듣기 5. 크롤링 막히는 부분 상담 (selector시도, api사용) 6. xpath로 막히는 부분 selector로 해결하기 01 문제해결: 크롤링 막힘 -> CSS_SELECTOR로 해결 element1 = driver.find_element(By.CSS_SELECTOR, ".DUwDvf.lfPIob") # 이름 element2 = driver.find_element(By.CSS_SELECTOR, ".F7nice > span:nth-child(1)") # 평점 element3 = drive..
2024.03.28 -
TIL 99일차 : 팀회의, 구글맵스, 젬마
✏️도전한 점 1. 8시 기분환기, 비전공자 IT책 읽기 2. 10시부터 팀회의 후 클러스터링 상담 4. 점심먹고 크롤링 (구글맵 경로패턴) 5. 데이터 수집 방법 학습 (셀레니움, 뷰숲) 6. GEMMA 사용법 특강 듣기 7. 캐글 토큰 연동 3시간의 고뇌, 노력 01 전담 튜터님의 상담(개인정보 삭제) Q. 머신 러닝 또는 gpt로 추천 모델을 만들 수 있는 지 궁금합니다. A. 기본적으로 GPT를 포함한 LLM으로 추천은 "가능"하지만, 굉장히 효율이 나쁩니다. 기본적으로 할루시네이션이 깔려있고, 회사나 팀이 보유하고 있는 데이터를 incontext로 넣어주는 데에 한계가 명확해요. 일반적으로 ML/AI 개발자가 선호하는 방식은 LLM으로부터 embedding vector를 추출하여 이를 featu..
2024.03.27 -
TIL 98일차 : 프로젝트 발제, 팀회의, 기획서 작성 및 제출
✏️도전한 점 1. 크롤링 selenium, beutifulsoup 실습 2. 이상치, 결측치 처리하는 방법을 시계열/비시계열 데이터로 나누어서 학습 3. 최종 프로젝트 주제 선정 팀회의 - 다수의 상담 4. 개인이동장치(PM) 철거에 대한 주제를 브리핑 했음. 5. 데이터 리터러시 단기 프로젝트로 전환하려고 함. 01 selenium, beutifulsoup, 이상치, 결측치 02 프로젝트 주제 관련 상담 [ㅅㅎ 튜터님, 매니저님 종합 의견] 1. 입지 추천을 하신 다음 슬랙으로 매일 보내라고 한다. 2. 빵집은 분류까지인 듯? 추가되어야 할 듯하다. 3. 입지분석은 이미 분석을 어느 정도해서 데이터 부족?이 문제 기술적을 봐도 되니까 먼저 의미있는 주제 찾기가 조금 더 중요하지 않을까? 생각한다. 2..
2024.03.26 -
[개인] 데이터 리터러시 : '공유 킥보드' 사라진 파리... 왜?
01 ‘공유 킥보드’ 사라진 파리… 왜?파리시에 공유 전동 킥보드가 지속가능하고 실용적인 교통수단이라는 점을 설득하지 못했고, 유감스럽게도 서비스를 중단하게 됐다.파리시의 퇴출 결정은 공유 전동 킥보드가 시민의 안전을 위협하고 사용 후 아무 데나 방치돼 도시 미관을 해친다는 지적에 따른 것이다.재작년 1월부터 8월까지 247건이던 전동 킥보드 사고 건수는 지난해 같은 기간 30% 이상 늘었고 한해 사망자는 24명에 달했다. 공유 전동 킥보드 '모두' 사라진 파리…왜? (sbs.co.kr) 공유 전동 킥보드 '모두' 사라진 파리…왜?유럽 도시 가운데 처음으로 프랑스 파리에서 공유 전동 킥보드가 사라졌습니다. 파리 사람들이 즐겨 이용하던 이 공유 킥보드가 자취를 감춘 이유는 뭘까요.news.sbs.co.kr..
2024.03.26 -
TIL 97일차 : RFM, 딥러닝, xls와 quotechar🦹🏻♀️
✏️도전한 점 1. 머신러닝 군집화 실습 RFM 학습 2. 딥러닝 이론, 간단 실습 학습 3. 프로젝트 관련 주제회의 (스몰토크에서 아이디어 얻기) 4. html, csv파일을 확장자만 바꿔서 저장한 경우 해결하기 01 군집화 실습 RFM, 딥러닝 학습 02 xls파일인 척하는 html, csv파일 잡아내기 [꿀팁] read함수가 마음대로 사용이 안된다면 원본 파일은 어떤 형태인지 알아볼 필요가 있다. 1. 파일을 확인한다. 문제 없이 열리는 파일은 VSCode에서 열리지 않는데 이건 열린다. 2. 이렇게 파일을 확인하고 xls파일이지만 간단하게 read_html로 불러올 수 있었다. 3. html로 불러온 변수는 list를 담고 있기에 리스트의 0번에 해당하는 데이터프레임을 불러온다. df = pd.r..
2024.03.26