데이터분석을 위한 판다스입문 07~12장 인사이트
2024. 2. 29. 23:48ㆍ학습/팀스터디
01 판다스 입문 07-3 튜터님 상담후기
- 수강생 세 분이 버전이 달라서 문법이 다를 수 있음.
- 07-3장은 일단 학습 목적 자체가 "concat"이다.
- 이건 다음 예제에서도 할 수있으니까 7-4로 넘어간다.
- 그렇게 예제가 적합하다고 생각하지 않는다.
- 데이터가 분할된거 한번에 끌어오는 건 엔지니어의 역할인데
- 비슷한 이름(패턴의 파일명) 불러오는건 실무에서 전혀 쓰지 않음.
- 분석가 방향이면 "concat"만 학습한다.
- 07-4 내용은 정말 많이 사용하는거니까 여러가지로 핸들링 해보기
- 팀원 모두 버전 낮추고 07-4로 넘어가면 좋겠다.
- 07-3 엔지니어의 소관이다. (필요 시 학습하기)
- 이부분은 팀원의 도움을 받아 "./"로 대체해 실행할 수 있음을 확인했다.
- 하지만 무조건 적인 코드는 아니다. "."가 잘못된 예제도 아니다.
- 버전마다 문법이 다를 수 있음을 인지하고 사용하면 되겠다.
02 판다스입문 08장 의문 사항이 생겼다.
count_mean = (
intv_df
.groupby(["rep", "intervened", "tr"])["ig_type"]
.count()
)
print(count_mean.head())
아무리봐도 위와 아래의 결과가 같은데 굳이 이렇게 예시를 든 이유가 뭘까? 학습용인가?
count_mean = (
intv_df
.groupby(["rep", "intervened", "tr"])["ig_type"]
.count()
.groupby(level=[0, 1, 2])
.mean()
)
print(count_mean.head())
03 판다스입문 09장 의문 사항이 생겼다.
궁금 1. numpy 결측값을 불러와야 하는가?
- True, False처럼 nan만으로 사용하려면 이렇게 불러와야 한다.
- 아니면 pd.NA, np.NaN 이렇게 표현해줘야 하는 것 같다.
궁금 2. 첫 번째 문제를 해결하면서 알게 됐다.
- pd.NA, np.NaN 기능을 사용하고 싶지 않으면 numpy의 기능을 import해야 한다. 아니면 에러 뜬다.
- 아래와 같이 nan만 사용해도 덮어쓰기가 되면서 메서드, 함수와 같은 결과를 볼 수 있다.
04 판다스입문 11장 인사이트
'학습 > 팀스터디' 카테고리의 다른 글
🔎아티클 스터디: ① A/B 테스트 제대로 이해하기 (0) | 2024.05.08 |
---|---|
🔎아티클 스터디 : 군집과 분류의 차이를 이해한다. (0) | 2024.03.20 |
데이터분석을 위한 판다스입문 4, 5, 6장 (0) | 2024.02.26 |
🔎아티클 스터디 : 표와 데이터 셋 (0) | 2024.02.23 |
데이터분석을 위한 판다스입문 3장 (0) | 2024.02.22 |