2024. 4. 2. 23:31ㆍ회고/TIL(매일)
✏️도전한 점
1. 팀원 별 오류사항 회의
2. 이력서 세션 강의 듣기
3. 데이터 전처리
4. 사이킷런 파트 수준별 강의 듣기
5. 데이터프레임 인덱스 정리
01 데이터 프레임 인덱스 : 헷갈려서 정리했다.
1. dataframe 자체의 길이는 rows수 = index 길이와 같다.
2. 인덱스도 컬럼도 리스트처럼 사용할 수 있다.
3. values메소드는 row를 리스트에 담아줘서 이중 인덱스로 하나씩 꺼낼 수 있다.
4. 컬럼명을 명시해서 인덱스로 요소를 추출할 수 있다.
02 프로젝트 대비 : 데이터 전처리 복습
이상치, 결측치 전처리 - 노트 필기 (차후 정리)
03 이력서 세션 정리
1. 5분 기록보드 잘 정리해두면 나중에 면접에 유용하다.
2. 텍스트를 2차적으로 정재해서 답변에 활용한다.
04 최종 프로젝트 : 데이터 수집 및 전처리
04.02 크롤링 문제 해결 과정 - 인사이트
01 전체 문제 해결 과정 1. 데이터 merge시 더 많아지는 이유는? info_df에 중복이 있을 것이다(?) 찾아보자. - '솔트 24'의 중복에 있었다. 정확히는 '솔트24', '솔트 24', '솔트 24'가 있다. - 해당 가게는
specialda.tistory.com
05 수준별 강의: 머신러닝 전처리
1. 자료형에 맞는 row만 나타내기
df2 = df.select_dtypes(include=['int64', 'float64'])
2. test를 왜 2차로 1:1비율로 쪼개는 건가요?
- 수능 전 모의고사 보는 개념과 같다.
3. "데이터프레임이 비었을 때" 라는 조건이 유용하게 쓰이겠다.
if df.empty:
df = temp_df
else:
df = pd.concat([df, temp_df])
4. api 몇페이지인지 모를 때에는?
5. 이건 뭐지? 복습할 때 체크하기
if len(temp_df)<100:
break
6. 데싸가 되신다면 로그파일?
7. 튜터님 회사 신입의 직무가 궁금하다.
'회고 > TIL(매일)' 카테고리의 다른 글
TIL 107일차 : 크롤링 와이파이 이슈 (0) | 2024.04.04 |
---|---|
TIL 106일차 : 작성일, 작성자 수집해보기 (0) | 2024.04.03 |
TIL 104일차 : 월요일도 크롤링 all_day (0) | 2024.04.01 |
TIL 103차 : 업체 리뷰 분리하고 코드 통합하기 (0) | 2024.03.31 |
TIL 102일차 : Iframe에 대한 깨달음, 리뷰 크롤링 성공과 문제 (0) | 2024.03.30 |