데이터분석을 위한 판다스입문 07~12장 인사이트

2024. 2. 29. 23:48학습/팀스터디

 

01 판다스 입문 07-3 튜터님 상담후기


  • 수강생 세 분이 버전이 달라서 문법이 다를 수 있음.
  • 07-3장은 일단 학습 목적 자체가 "concat"이다.
  • 이건 다음 예제에서도 할 수있으니까 7-4로 넘어간다.
  • 그렇게 예제가 적합하다고 생각하지 않는다.
  • 데이터가 분할된거 한번에 끌어오는 건 엔지니어의 역할인데
  • 비슷한 이름(패턴의 파일명) 불러오는건 실무에서 전혀 쓰지 않음.
  • 분석가 방향이면 "concat"만 학습한다.
  • 07-4 내용은 정말 많이 사용하는거니까 여러가지로 핸들링 해보기
  • 팀원 모두 버전 낮추고 07-4로 넘어가면 좋겠다.
  • 07-3 엔지니어의 소관이다. (필요 시 학습하기)
  • 이부분은 팀원의 도움을 받아 "./"로 대체해 실행할 수 있음을 확인했다.
  • 하지만 무조건 적인 코드는 아니다. "."가 잘못된 예제도 아니다.
  • 버전마다 문법이 다를 수 있음을 인지하고 사용하면 되겠다.

 

02 판다스입문 08장 의문 사항이 생겼다.


count_mean = (
    intv_df
    .groupby(["rep", "intervened", "tr"])["ig_type"]
    .count()
)
print(count_mean.head())

 

아무리봐도 위와 아래의 결과가 같은데 굳이 이렇게 예시를 든 이유가 뭘까? 학습용인가?

 

count_mean = (
    intv_df
    .groupby(["rep", "intervened", "tr"])["ig_type"]
    .count()
    .groupby(level=[0, 1, 2])
    .mean()
)
print(count_mean.head())

 

03 판다스입문 09장 의문 사항이 생겼다.


 

궁금 1. numpy 결측값을 불러와야 하는가?

-  True, False처럼 nan만으로 사용하려면 이렇게 불러와야 한다.

- 아니면 pd.NA, np.NaN 이렇게 표현해줘야 하는 것 같다.

 

 

궁금 2. 첫 번째 문제를 해결하면서 알게 됐다.

- pd.NA, np.NaN 기능을 사용하고 싶지 않으면 numpy의 기능을 import해야 한다. 아니면 에러 뜬다.

- 아래와 같이 nan만 사용해도 덮어쓰기가 되면서 메서드, 함수와 같은 결과를 볼 수 있다.

 

 

04 판다스입문 11장 인사이트