🔎아티클 스터디: 커널밀도추정, 중심극한정리

2024. 6. 17. 11:41학습/팀스터디

 

1. 오늘의 아티클(주제)


 

(2) DSforS : Chap 1 탐색적 데이터분석 1.5 ~ 2.3

데이터 과학통계 1.5. ~ 2.3.에서는  탐색적 데이터분석의 사례를 소개한다. 1.5 데이터 분포 탐색하기1.6 이진 데이터와 범주 데이터 탐색하기1.7 상관관계1.8 두 개 이상의 변수 탐색하기1.9 마치며

snowgot.tistory.com

 

2. 아티클 정보 요약


1) 밀도 추정 (Density Estimation)

  • 개념: 밀도 추정은 우리가 가지고 있는 데이터가 어떻게 분포되어 있는지 알아보는 방법이다.
  • 비유: 공원의 어떤 부분에 사람들이 많이 모여 있는지 알고 싶다. 이를 위해 공원의 여러 부분에서 사람들이 얼마나 있는지 세어본다. 이렇게 하면 사람들이 어디에 많이 모여 있는지 알 수 있다.
  • 설명: 밀도 추정은 데이터를 사용해서 특정 값이 얼마나 자주 나타나는지 파악하는 방법이다. 이를 통해 우리는 데이터가 어떻게 퍼져 있는지 알 수 있다.

2) 커널 밀도 추정 (Kernel Density Estimation)

  • 개념: 커널 밀도 추정은 밀도 추정을 좀 더 부드럽고 정확하게 하는 방법이다.
  • 비유: 공원에 얼마나 많은 사람들이 어디에 있는지 알고 싶다. 이를 해결하기 위해 공원의 여러 곳에 작은 빵조각(커널)을 놓아두고, 사람들이 그 빵조각 주변에 얼마나 모여 있는지 본다. 빵조각 주변에 사람이 많이 모여 있을수록, 그곳은 사람들이 많은 곳이라는 걸 알 수 있다. 이방법은 사람들의 분포를 부드러운 곡선으로 보여준다.
  • 설명: 커널 밀도 추정은 각 데이터 포인트 주위에 작은 곡선(커널)을 그려서 전체 데이터를 부드럽게 연결하는 방법이다. 이 곡선들의 합을 통해 데이터가 어떻게 분포되어 있는지 부드럽게 나타낼 수 있다.

3) 중심 극한 정리 (Central Limit Theorem)

  • 개념: 많은 데이터를 모아서 평균계산하면, 그 평균들이 종 모양의 그래프를 그린다는 것을 알려준다.
  • 비유: 친구들과 함께 여러 번 주사위를 굴린다고 상상해보자. 한 번에 주사위 하나를 굴리면, 나오는 숫자는 1부터 6까지 다를 수 있다. 그런데 주사위를 10번 굴리고 그 숫자들의 평균을 계산한다고 해보자. 이걸 많은 친구들과 여러 번 반복하면, 평균 숫자들은 대부분 3이나 4 근처에 모이게 된다. 그래서 평균을 그래프로 그리면, 가운데가 높은 종 모양이 나온다.
  • 설명: 중심 극한 정리는 많은 데이터를 모아서 평균을 계산하면, 그 평균들이 종 모양의 그래프(정규분포)를 그린다는 것을 알려주는 중요한 규칙이다. 이 규칙 덕분에 우리는 데이터를 분석할 때 통계적으로 유용한 결론을 내릴 수 있다.

 

3. 인사이트


밀도 추정과 커널 밀도 추정의 차이점 요약

  1. 방법의 차이:
    • 밀도 추정: 데이터를 특정 구간으로 나누고, 각 구간에 데이터가 얼마나 있는지 세는 방법으로 그래프를 그리면 계단 모양(히스토그램)처럼 보일 수 있다.
    • 커널 밀도 추정: 각 데이터 포인트 주위에 작은 곡선(커널)을 그려서 전체 데이터를 부드럽게 연결하는 방법이다. 그래프를 그리면 부드러운 곡선 모양이 나온다.
  2. 결과의 차이:
    • 밀도 추정: 결과가 조금 각진 모양으로 나올 수 있다.
    • 커널 밀도 추정: 결과가 부드러운 곡선 모양으로 나온다.