2024. 2. 25. 00:54ㆍ학습/시각화
01 박스 플랏(Box Plot) 실습
💡박스 플랏은 데이터분포와 이상치 시각적으로 파악할 때 사용한다.
- 박스 플롯에서 이상치를 알아보는 IQR 방법: 사분범위의 값에 편차를 이용한다. IQR에 1.5배를 곱하고 곱한 값에서 벗어난 데이터를 이상치라고 판단한다.
[tip] 하지만 회사에서는 이상치가 우리의 "vip고객" 또는 "유의미"한 고객을 나타낼 수 있다. 때문에 이상치를 마냥 안좋게 보고 제거하는 거이 아니라 이상치가 어떤 의미를 가지는지 알아보는 게 중요하다.
이상치가 구매비중이 클 수도 있고, 이상치의 리텐션이 높을 수 있다.
실제로 현업에서 이런 이상치를 집중 분석하는 업무를 많이 한다.
이러한 이상치가 어떤 원인에서 나온 거고, 어떤 유형의 고객을 나타내는지 등,
이상치의 특성들을 많이 알아보는 과정이 중요하다.
*고객 리텐션은 고객이 회사의 제품이나 서비스를 계속 사용하고 이탈하지 않는 비율을 의미한다.
캐글에서 EAD 할 때는 이상치를 제거하는 경우가 많은데,
회사하면 이런 케이스가 조금 다르기 때문에 많이 알아보고 제거하는 게 좋겠다.
[🔎실습 1] 숙박 시설 유형별 가격 분포
- property type(숙박 시설 유형)은 주택(House), 게하(Guesthouse), 빌라(Villa) 등이 있다.
- property type별 가격 분포를 박스 플랏으로 시각화 해본다.
✅ 색상: 자유롭게 변경해주세요.
✅ 마크: 모양으로 변경해주세요.
✅ 축 편집: y축의 주 눈금선을 고정으로 변경해주세요.
✅ 화면 맞춤: 전체 보기
- 제대로 만들어지지 않음.
- 문제 발생: 강의를 보고 price [차원 설정] > 열에 Property Type 추가해도 아래처럼 자동으로 박스플랏이 만들어지지 않음.
- 문제 이유: 상단바 [분석] > 측정값 집계 체크 해제 (태블로 내에서 박스 플랏에 단일 마크 사용시 데이터가 집계되어 발생하는 이슈)
- 어떤 분이 이렇게 해결했대서 박스 플롯을 드래그 앤 드롭했는데 나는 안됐음.
- 드래그 앤 드롭을 생략하고 바로 [표현 방식] > [박스 플롯]으로 가야한다.
- 저 상태에서 박스 플롯 눌러도 되는데 안해도 되는 무의미한 과정이었다.
💡문제 해결 방법 정리
1. price [차원]값 주고, property type 추가한 단계에서 [분석] > [측정값 집계] 해제
2. price 측정값을 [합계]로 변경한다.
3. 오른쪽 표현 방식에 [박스 플랏]이 활성화된 걸 확인하고, 클릭한다.
4. 마크를 [모양]으로 바꾸고 색상을 [민트]로 변경한다.
5. [전체 보기]까지 변환하면 완료.
02 데이터를 행/열에 넣는 차이를 이해한다.
[tip] 노코드로 제작할 때, 헷갈리기 쉬우니까 로직을 이해한다.
03 파레토 차트(Pareto Chart)
🔎 파레토 법칙이란?
전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법
(다수의 결과는 소수의 원인에 의해 생겨난다)
예를 들어, 간단하게 데이터를 분석하고자 할 때
1. 80%의 수익이 판매 상품 중 20%에서 발생한다고 의사 결정할 수 있다.
2. 즉, 매출의 80%가 고객의 20%에 의해 발생한다고 효율적인 의사 결정을 할 수 있습니다.
04 상관 관계(Scatter Plot)
💡지표 간에 어떤 선형적인 관계가 있는지 알아보기 위해 "상관 분석"을 자주 활용합니다.
- [참고] 피어슨 상관 관계 설명 상관 관계
- r이 -1이나 1에 가까울수록 x와 y 사이의 관계가 더 강력하다.
- r이 0이거나 0에 가까우면 측정값 간의 관계가 약하거나 관계가 없다고 해석된다.
- 일반적인 규칙에 따라, r 값을 다음과 같은 방식으로 해석할 수 있다.
- +.70 이상은 매우 강한 양의 관계를 나타냅니다.
- +.40에서 +.69 사이는 강한 양의 관계를 나타냅니다.
- +.20에서 +.39 사이는 중간 정도의 양의 관계를 나타냅니다.
- .19에서 +.19 사이는 약하거나 상관없는 관계를 나타냅니다.
- .20에서 -.39 사이는 중간 정도의 음의 관계를 나타냅니다.
- .40에서 -.69 사이는 강한 음의 관계를 나타냅니다.
- .70 이하는 매우 강한 음의 관계를 나타냅니다.
05 시계열 예측
- 태블로에서 지수 평활법(exponential smoothing)을 활용해서 예측 모델링을 한다.
- 과거 데이터에 기반하여 미래를 예측하는 시계열 예측을 한다.
[🔎실습 2] 일별 에어비앤비 매출 예측하기
- calender.csv는 2016/9/6부터 2017/9/4까지 일별 전체 매출 실적 데이터이다.
- 실제 값을 바탕으로 2017/9/5 - 2017/9/16 매출을 예측해본다.
✅ 표현 방식: 라인 그래프
✅ 예측: 예측 표시
✅ 색상: 색상표에서 천사의 돌을 선택해주세요.
✅ 레이블: 선 끝 레이블 지정
✅ 범례: 숨기기
✅ 워크시트 서식: 채우기 색상을 자유롭게 변경해주세요.
[잠깐 복습] 현재는 내가 다운받은 csv파일이지만, 빅쿼리 이용 시 데이터가 과금이 될 수 있으니 실시간 라이브 보다는 추출을 이용하는 걸 배웠었다.
1. 여기서 표현 방식 > [라인 그래프] 를 누르면 측정값이 [연속형]으로 바뀐다.
2. 워크시트 우클릭 > [예측] > [예측 표시]
3. [색상] 마크에서 [천사의 돌]을 선택한다.
4. 마크 [레이블] 표시하고 복잡하니까 [전체]를 > [라인 끝]으로 변경한다.
5. 범례는 [범례 숨기기]
6. 상단 [서식] > [워크시트] > [음영] > [워크시트 채우기] > 자유롭게 변경한다.
7. 완성! 워크시트 우클릭 > [데이터 보기]를 통해 예측값을 확인할 수 있다.
☑️해석 : 에어비앤비의 매출은 꾸준히 늘고 있고, 17년 3월 1일 즈음엔 주춤하지만 다시 상승하는 추세이다.
06 대시보드 만들기🥹
'학습 > 시각화' 카테고리의 다른 글
판다스 데이터프레임 apply 함수 적용 궁금증 해결완료 (0) | 2024.02.27 |
---|---|
태블로 4주차 : 계산식 활용, 대시보드 만들기 (0) | 2024.02.25 |
태블로 3-1주차 : airbnb data set 실습 (0) | 2024.02.25 |
태블로 2주차 : 태블로 맛보기 (0) | 2024.02.24 |
태블로 1주차 : BI, 태블로 개념잡기 (0) | 2024.02.21 |