태블로 3-2주차 : 박스 플랏(Box Plot) < 이슈 발생, 왜?

2024. 2. 25. 00:54학습/시각화

 

01 박스 플랏(Box Plot) 실습


💡박스 플랏은 데이터분포와 이상치 시각적으로 파악할 때 사용한다.

 

- 박스 플롯에서 이상치를 알아보는 IQR 방법: 사분범위의 값에 편차를 이용한다. IQR에 1.5배를 곱하고 곱한 값에서 벗어난 데이터를 이상치라고 판단한다.

 

[tip] 하지만 회사에서는 이상치가 우리의 "vip고객" 또는 "유의미"한 고객을 나타낼 수 있다. 때문에 이상치를 마냥 안좋게 보고 제거하는 거이 아니라 이상치가 어떤 의미를 가지는지 알아보는 게 중요하다.

이상치가 구매비중이 클 수도 있고, 이상치의 리텐션이 높을 수 있다.
실제로 현업에서 이런 이상치를 집중 분석하는 업무를 많이 한다.
이러한 이상치가 어떤 원인에서 나온 거고, 어떤 유형의 고객을 나타내는지 등,
이상치의 특성들을 많이 알아보는 과정이 중요하다.

*고객 리텐션은 고객이 회사의 제품이나 서비스를 계속 사용하고 이탈하지 않는 비율을 의미한다.


캐글에서 EAD 할 때는 이상치를 제거하는 경우가 많은데,
회사하면 이런 케이스가 조금 다르기 때문에 많이 알아보고 제거하는 게 좋겠다.

 

[🔎실습 1] 숙박 시설 유형별 가격 분포

- property type(숙박 시설 유형)은 주택(House), 게하(Guesthouse), 빌라(Villa) 등이 있다.

- property type별 가격 분포를 박스 플랏으로 시각화 해본다.

 

✅ 색상: 자유롭게 변경해주세요.
✅ 마크: 모양으로 변경해주세요.
✅ 축 편집: y축의 주 눈금선을 고정으로 변경해주세요.
✅ 화면 맞춤: 전체 보기

 

- 제대로 만들어지지 않음.

 

 

- 문제 발생: 강의를 보고 price [차원 설정] > 열에 Property Type 추가해도 아래처럼 자동으로 박스플랏이 만들어지지 않음.

 

 

- 문제 이유: 상단바 [분석] > 측정값 집계 체크 해제 (태블로 내에서 박스 플랏에 단일 마크 사용시 데이터가 집계되어 발생하는 이슈)

 

 

- 어떤 분이 이렇게 해결했대서 박스 플롯을 드래그 앤 드롭했는데 나는 안됐음.

- 드래그 앤 드롭을 생략하고 바로 [표현 방식] > [박스 플롯]으로 가야한다.

- 저 상태에서 박스 플롯 눌러도 되는데 안해도 되는 무의미한 과정이었다.

 

💡문제 해결 방법 정리

1. price [차원]값 주고, property type 추가한 단계에서 [분석] > [측정값 집계] 해제
2. price 측정값을 [합계]로 변경한다.
3. 오른쪽 표현 방식에 [박스 플랏]이 활성화된 걸 확인하고, 클릭한다.
4. 마크를 [모양]으로 바꾸고 색상을 [민트]로 변경한다.
5. [전체 보기]까지 변환하면 완료.

 

 

02 데이터를 행/열에 넣는 차이를 이해한다.


 

[tip] 노코드로 제작할 때, 헷갈리기 쉬우니까 로직을 이해한다.

 

03 파레토 차트(Pareto Chart)


🔎 파레토 법칙이란?
전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법
(다수의 결과는 소수의 원인에 의해 생겨난다)

 

예를 들어, 간단하게 데이터를 분석하고자 할 때
1. 80%의 수익이 판매 상품 중 20%에서 발생한다고 의사 결정할 수 있다.
2. 즉, 매출의 80%가 고객의 20%에 의해 발생한다고 효율적인 의사 결정을 할 수 있습니다.

 

 

04 상관 관계(Scatter Plot)


💡지표 간에 어떤 선형적인 관계가 있는지 알아보기 위해 "상관 분석"을 자주 활용합니다.

 

 

  • [참고] 피어슨 상관 관계 설명 상관 관계
    1. r이 -1이나 1에 가까울수록 x와 y 사이의 관계가 더 강력하다.
    2. r이 0이거나 0에 가까우면 측정값 간의 관계가 약하거나 관계가 없다고 해석된다.
    3. 일반적인 규칙에 따라, r 값을 다음과 같은 방식으로 해석할 수 있다.
      • +.70 이상은 매우 강한 양의 관계를 나타냅니다.
      • +.40에서 +.69 사이는 강한 양의 관계를 나타냅니다.
      • +.20에서 +.39 사이는 중간 정도의 양의 관계를 나타냅니다.
      • .19에서 +.19 사이는 약하거나 상관없는 관계를 나타냅니다.
      • .20에서 -.39 사이는 중간 정도의 음의 관계를 나타냅니다.
      • .40에서 -.69 사이는 강한 음의 관계를 나타냅니다.
      • .70 이하는 매우 강한 음의 관계를 나타냅니다.

 

05 시계열 예측


- 태블로에서 지수 평활법(exponential smoothing)을 활용해서 예측 모델링을 한다.
- 과거 데이터에 기반하여 미래를 예측하는 시계열 예측을 한다.

 

[🔎실습 2] 일별 에어비앤비 매출 예측하기
- calender.csv는 2016/9/6부터 2017/9/4까지 일별 전체 매출 실적 데이터이다.

- 실제 값을 바탕으로 2017/9/5 - 2017/9/16 매출을 예측해본다.

 

✅ 표현 방식: 라인 그래프
✅ 예측: 예측 표시
✅ 색상: 색상표에서 천사의 돌을 선택해주세요.
✅ 레이블: 선 끝 레이블 지정
✅ 범례: 숨기기
✅ 워크시트 서식: 채우기 색상을 자유롭게 변경해주세요.

 

 

[잠깐 복습] 현재는 내가 다운받은 csv파일이지만, 빅쿼리 이용 시 데이터가 과금이 될 수 있으니 실시간 라이브 보다는 추출을 이용하는 걸 배웠었다.

 

 

1. 여기서 표현 방식 > [라인 그래프] 를 누르면 측정값이 [연속형]으로 바뀐다.

2. 워크시트 우클릭 > [예측] > [예측 표시]

3. [색상] 마크에서 [천사의 돌]을 선택한다.

4. 마크 [레이블] 표시하고 복잡하니까 [전체]를 > [라인 끝]으로 변경한다.

5. 범례는 [범례 숨기기]

6. 상단 [서식] > [워크시트] > [음영] > [워크시트 채우기] > 자유롭게 변경한다.

7. 완성! 워크시트 우클릭 > [데이터 보기]를 통해 예측값을 확인할 수 있다.

 

 

☑️해석 : 에어비앤비의 매출은 꾸준히 늘고 있고, 17년 3월 1일 즈음엔 주춤하지만 다시 상승하는 추세이다.

 

06 대시보드 만들기🥹