2024. 6. 4. 23:58ㆍ회고/TIL(매일)
1. 업무 - 재고 정리
2. 독서 - 기술 통계
01 기술 통계: 백지노트 중 정확하지 않음.
고객 데이터를 대상으로 분석을 진행하라고 전달을 받았을 때, 일반 사원의 입장에서 이런 숫자를 본다면 '평균'만을 떠올리기 쉽다. 그 외에 더 나아가자면 평균, 최솟값, 최댓값 이런 정도?가 아닐까. 하지만 데이터 분석을 바탕으로 진행하고자 한다면 분석 툴을 이용해서 좀 더 자세하게 고객 데이터의 이야기를 들어볼 필요가 있다.
컴퓨터 언어를 사용하지 않고도 확인이 가능하다. 우리에게 익숙한 엑셀말이다. 엑셀의 분석 툴을 이용하면 평균에서부터 중앙값, 최댓값, 최솟값, 왜도, 첨도, 표준편차, 분산 등을 알 수 있다. 통계는 기본적으로 데이터가 정규형을 띈다는 전제로 지표들을 확인한다. 그럼 정규형을 띄는 지는 어떻게 알 수 있을까. 바로 왜도와 첨도 등의 지표로 확인할 수 있다.
왜도는 데이터가 어느 쪽으로 치우쳐 있는지 확인할 수 있는 지표이다. 왜도가 양수라면 왼쪽으로 치우쳐져 오른쪽으로 꼬리가 길게 늘어진다. 음수라면 오른쪽으로 언덕이 치우져저 있고 꼬리가 왼쪽으로 길게 늘어진다. 평균과 중앙값, 최빈값에 따라 치우침의 정도가 다르게 표현된다. 첨도는 그래프가 얼마나 뾰족한지 알려주는 지표이다. 정규형은 3이라는데 0에 맞추는 게 보기 편해서 결과적으로 왜도/첨도는 +-2 내의 범위에 위치할 때 정규형을 따른다고 한다.
공부를 할 때에는 정규형을 띄는 데이터를 많이 만지겠지만, 실제 데이터를 받았을 때 그렇지 않다고 한다. (프로젝트 중에도 확인했듯 크롤링 데이터들은 중구난방이었다.) 따라서 데이터 분석가가 처음에 할 일은 데이터를 정규형으로 손보는 등 도메인 지식이 풍부한 동료들과 협업하기까지 정돈된 형태를 만드는 업무를 한다고 볼 수 있겠다.
'회고 > TIL(매일)' 카테고리의 다른 글
TIL 156일차: Streamlit (1) | 2024.06.06 |
---|---|
TIL 155일차: 추천 시스템의 베스트 셀러에 대해서 (0) | 2024.06.05 |
TIL 153일차 (0) | 2024.06.03 |
TIL 152일차: 딕셔너리, Counter()로 같은 기능 구현 (0) | 2024.05.31 |
TIL 151일차 (0) | 2024.05.29 |