TIL 105일차 : 데이터 수집, 전처리, #데이터프레임의길이

2024. 4. 2. 23:31회고/TIL(매일)

 

✏️도전한 점


1. 팀원 별 오류사항 회의

2. 이력서 세션 강의 듣기

3. 데이터 전처리

4. 사이킷런 파트 수준별 강의 듣기

5. 데이터프레임 인덱스 정리

 

01 데이터 프레임 인덱스 : 헷갈려서 정리했다.


 

1. dataframe 자체의 길이는 rows수 = index 길이와 같다.

2. 인덱스도 컬럼도 리스트처럼 사용할 수 있다.

3. values메소드는 row를 리스트에 담아줘서 이중 인덱스로 하나씩 꺼낼 수 있다.

4. 컬럼명을 명시해서 인덱스로 요소를 추출할 수 있다.

 

02 프로젝트 대비 : 데이터 전처리 복습


이상치, 결측치 전처리 - 노트 필기 (차후 정리)

 

03 이력서 세션 정리


1. 5분 기록보드 잘 정리해두면 나중에 면접에 유용하다.

2. 텍스트를 2차적으로 정재해서 답변에 활용한다.

 

04 최종 프로젝트 : 데이터 수집 및 전처리


 

04.02 크롤링 문제 해결 과정 - 인사이트

01 전체 문제 해결 과정 1. 데이터 merge시 더 많아지는 이유는? info_df에 중복이 있을 것이다(?) 찾아보자. - '솔트 24'의 중복에 있었다. 정확히는 '솔트24', '솔트 24', '솔트 24'가 있다. - 해당 가게는

specialda.tistory.com

 

05 수준별 강의: 머신러닝 전처리


1. 자료형에 맞는 row만 나타내기

df2 = df.select_dtypes(include=['int64', 'float64'])

2. test를 왜 2차로 1:1비율로 쪼개는 건가요?

- 수능 전 모의고사 보는 개념과 같다.

 

3. "데이터프레임이 비었을 때" 라는 조건이 유용하게 쓰이겠다.

if df.empty:
    df = temp_df
else:
    df = pd.concat([df, temp_df])

 

4. api 몇페이지인지 모를 때에는?

5. 이건 뭐지? 복습할 때 체크하기

if len(temp_df)<100:
    break


6. 데싸가 되신다면 로그파일?

7. 튜터님 회사 신입의 직무가 궁금하다.