TIL 10일차 : correlation

2023. 12. 13. 21:00회고/TIL(매일)

 

도전한 점

  • 결과 보고서 제출, 2회치 재료비 정산, 4주차 과제 이해완료, 5주차 완강 후
  • 데이터 분석 1주차 강의

 

  • 데이터 분석하는 사고방식을 통해서 계속해서 반복하고 체득하는 과정이 데분의 핵심이다.
  • 데이터에 기반한 명확한 근거를 찾아서 비즈니스 의사 결정을 내릴 수 있는 사람이 되자.

 

  • 스프레드시트 'analysis toolpak' 실습

- correlation : A요인이 B결과에 영향을 주는 지, 상관관계를 분석하는 것

- 상관관계 분석 : 음·양수 따지지 않고 값이 높은 것이 영향을 크게 준다.

 

- 양수일 경우 : 한 변수가 증가함에 따라 다른 변수도 증가하는 경향을 보이는 것
- 음수일 경우 : 한 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것

 

  • 생존율 분석 실습

- 탑승등급(Pclass) 그래프가 음수인 이유 : 가격과 탑승등급이 반비례하니까

- 음수일 경우 : 한 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것

 

  • 상관계수(correlation coefficient)

- 상관 관계의 규칙성 정도를 양적으로 표현하는 계수를 상관 계수라 한다. 상관 계수는 +1과 -1 사이의 값을 취하며, 1일 때 상관도가 강하고, -1 일 때 음의 상관도가 강하며, 0일 때 무상관이 된다.

 

- 상관계수 r는 항상 부등식 -1≤r≤1을 만족시키며, 양의 상관관계가 있을 때는 r>0, 음의 상관관계가 있을 때는 r<0이다. 또 무상관일 때는 r=0이 된다.

 

- 상관계수가 0과 가까울수록 규칙이 없이 흩어져 있어서 두 요인 사이의 특정한 관계를 찾기 어렵다.

 

 

  • 데이터분석 싸이클을 체득하자

1) 문제 정의 및 가설 설정하기 
2) 데이터 분석 기본 세팅 하기 = 데이터 전처리
3) 데이터 분석하기
4) 분석 결과 시각화 하기
5) 최종 결론 내리기

 

  • 파이썬 : 인간과 가장 친숙한 프로그래밍 언어

- 효율적이고, 효과적인 데이터 분석을 위해 사용한다.

 

  • 라이브러리 : 특정한 데이터분석 동작을 돕는 코드 모음집

- 코드 작성의 효율성을 높인다.

- 관련있는 기능들의 묶음을 '모듈', 모듈들의 묶음을 '패키지', 패키지들의 묶음을 '라이브러리'라고 한다.

 

  • pandas

- 데이터 분석에 사용되는 파이썬 라이브러리

- 데이터를 다양한 방법으로 조리할 수 있다.

 

  • matplotlib

- 데이터를 시각화 해주는 라이브러리

- 데이터 시각화 자료의 중요성은 아티클을 통해 배웠다.

 

  • 데이터분석 실습

- 사실 : 애리조나 사막지역 원주민인 피마 인디언이 세계에서 당뇨병 발병률이 가장 많은 종족으로 조사됨.

- 가설 : 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다.

- 목적 : 국제 보건 기구는 원주민을 포함하여 세계인의 당뇨병 조기 발견 및 치료 하고자 함.

- 실습 : 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 발생에 가장 많이 영향을 미치는 요소를 찾아본다.

 

1) 가설 : 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다.

2) 데이터 전처리 : 완료
3) 데이터 분석

 

 

4) 데이터 시각화

 

 

5) 최종 결론 내리기 : 데이터 분석 결과, 당뇨병 발병에 가장 큰 영향을 미치는 요소는 'Glucose' 이다.


좋았던 점


아쉬운 점


잊지말 점

  • 데이터 분석하는 사고방식을 통해서 계속해서 반복하고 체득하는 과정이 핵심이다.
  • 데이터에 기반한 명확한 근거를 찾아서 비즈니스 의사 결정을 내릴 수 있어야 한다.


시도할 점

  • 데이터분석 강의 2주차 python 경험하기