2024. 2. 27. 19:16ㆍ학습/시각화
https://prod-apnortheast-a.online.tableau.com/#/site/teamsparta/home
prod-apnortheast-a.online.tableau.com
01 데이터 속성
🔎 Superstore: 2020~2023년도까지 4개년 커머스 데이터
- Oredr ID: 상품 주문 고유 아이디(PK)
- Order Date: 상품 주문 날짜
- Ship Date: 배송 날짜
- 2020- 2023(4개년)
- Ship Mode: 배송 유형
- First Class
- Same Day
- Second Class
- Standard Class
- Customer ID: 고객 아이디
- Category: 상위 카테고리
- SubCategory: 하위 카테고리
- Sales: 판매량
- Discount: 할인율
- Profit: 순이익
02 데이터 살펴보기
1. 텍스트 테이블 (분석 > 총계)
2. 하이라이트 테이블
- 행은 서브 카테고리 넣기, 열에는 아무것도 X
- 워크시트 표 값 안에 Sales 넣기
- 표현방식: 하이라이트 그래프
- 워크시트 안 컬럼명 옆 화살표 눌러서 필드 정렬
3. 컨텍스트 필터 활용하기
03 태블로 작동 원리: 필터 6종 (1>2>3>4>5>6)💡
- 추출 필터(top): 데이터 소스에서 추출된 데이터 필터링 (데이터 연결방식 라이브VS추출에서 추출을 선택했을 때만 사용 가능)
- 데이터 원본 필터: 데이터 원본 소스에서 일부 데이터만 필터링 (워크시트 작업 전 데이터원본 탭에서 이용 가능)
- 컨텍스트 필터: 특정값에 대한 데이터만 필터링 (여기부터 워크시트 작업)
- 차원 필터: 차원을 기준으로 데이터 필터링
- 측정값 필터: 측정값을 기준으로 데이터 필터링
- 테이블 계산 필터: 특정 계산 결과를 기준으로 데이터 필터링
04 계산과 필터의 태블로 작업 순서(쿼리 파이프 라인)
- 필터를 추가할 때 해당 필터가 항상 작업 순서에 따라서 순서대로 진행된다.
- 계산과 필터 사이에는 우선 순위가 있다.
- ex) FIXED가 컨텍스트 필터보다 아래에 있음을 유의해야 한다.
- 상위 필터, 집합, Fixed식과 차원 필터의 문제들이 발생하는 경우, "컨텍스트 필터"를 활용해서 작동 순서를 바꿀 수 있다.
- 측정값/차원 필터는 우클릭을 통해 쉽게 만들 수 있다. (지역별 필터에서 컨텍스트에 추가를 누르면 바로 변경됨.)
- 컨텍스트 필터를 많이 사용하는 이유는 컨텍스트 필터로 지정하게 되면 다른 필터와 다르게 필터링 된 데이터에 대해서만 필터가 적용되기 때문이다.
- 컨텍스트 필터는 데이터 원본 자체가 너무 클 때, topN필터를 사용할 때 많이 활용한다.
- 날짜 필터는 매개 변수를 활용해서 많이 만들기도 한다.
- 날짜 필터는 필터 표시에서 드롭다운, 슬라이더 등 다양한 형태로 변경할 수 있다.
05 태블로만의 계산식 (기본 계산식, 고급 계산식 LoD)
1.기본 계산식 활용하기: 계층과 드릴 다운 이해하기
2.퀵테이블 계산: 간단한 계산은 빠르게 해결하기
- 실무에서는 시계열 데이터를 많이 다룬다. 연도별, 월별, 주별, 일별로 비교하기 위해 전년 대비, 전월 대비, 전주대비, 전일대비 기준으로 "비즈니스 지표 증감 비교"를 많이 한다.
- 전주/월/년 대비 함수: 퀵 테이블 기능을 통해 빠르게 계산이 가능하다.
- LOD식을 활용해서 YTD, YoY, MoM, WoW를 직접 만들기도 한다.
YTD: 연초 대비 증감률
YoY: 전년 대비 증감률
MoM: 전월 대비 증감률
WoW: 전주 대비 증감률
기기 카테고리에서 휴대폰의 비중이 39.51%로 가장 높게 나타난다.
3. 태블로 함수 (SQL과 유사하다)
: 계산된 필드를 만들 때 많이 활용한다. 특히! ZN 함수가 특이하고 많이 사용한다.
참고 자료: 논리 함수
논리 함수
이 문서에서는 Tableau의 논리 함수와 관련 사용법을 소개합니다
help.tableau.com
참고 자료: 날짜 함수
날짜 함수
날짜는 많은 데이터 원본에서 공통 요소입니다
help.tableau.com
- IF
IF SUM([Sales]) >= 10000
THEN '상위 매출' ELSE '하위 매출' END
- CASE WHEN
CASE [측정값]
WHEN 'Sales' THEN [매출]
WHEN 'Profit' THEN [수익]
...
END
- DATEDIFF 함수: 두 날짜 사이의 차이를 반환
DATEDIFF(단위, 시작 날짜, 끝 날짜)
- DATEADD 함수: 날짜 더하기
DATEADD(단위, 간격, 기준 날짜)
- [배송 기간] 필드 만들기
4. 고급 계산식(LoD식) 활용하기
개념 참고: TIL 69일차 : Tableau 개념이해, 판다스 4-6 (tistory.com)
TIL 69일차 : Tableau 개념이해, 판다스 4-6
✏️도전한 점 데이터분석 판다스입문 4장, 5장, 6장 [학습 완료] 태블로 LOD, VLOD의 이해, 그리고 계산식 3종 [이해 완료] ✏️해결한 점 01 LOD(세부수준식) 개념이해 : 강의를 듣고 이해하기 어려웠
specialda.tistory.com
기본 문법 구조
{[FIXED | INCLUDE | EXCLUDE] [차원1], [차원2] : AVG([측정값])}
FIXED : 뷰에 지정 차원과 상관없이 계산한다.
INCLUDE : 뷰에 지정된 차원 뿐만 아니라 뷰에 보이지 않는 모든 차원을 포함시켜 계산한다. 뷰에 보이지 않는 특정 차원을 포함시키고 싶을 때 사용한다. 보통 평균과 많이 활용된다.
EXCLUDE : 식에 해당되는 차원을 제거하고 계산한다. 보통 뷰에 포함된 특정 차원을 제거하고 싶을 때 많이 활용된다.
지역별 평균 매출
{ FIXED [Region] : AVG([Sales]) }
{ INCLUDE [Region]: AVG([Sales]) }
{ EXCLUDE [Region]: AVG([Sales]) }
참고 자료: 상위 15가지 LOD 표현식
상위 15가지 LOD 표현식
Tableau의 사명은 사람들이 데이터를 보고 이해하는 일을 돕는 데 있습니다. Tableau 기능은 사용자가 데이터를 의미 있는 정보로 변환할 수 있도록 신중하게 설계되었습니다. Tableau에서 중점적으로
www.tableau.com
- 현재(VLoD) 태블로에서는 드릴 다운[+]한 하위(세부) 카테고리를 기준으로 측정값이 나온다.
- fixed는 상위 수준인 region으로 고정해서 계산한다. exclude와 값이 같다.
- exclude는 세부 수준을 제거해서 더 상위 수준은 region별로 나오게 된다.
- 태블로에서는 카테고리별로 모든 매출을 더하고나서 매출의 합계들을 각 카테고리의 행의 수만큼 나눠준다.
- include는 서브 카테고리 레벨에서 평균 값을 구하고나서 그 다음 상위 카테고리에 있는 평균 값을 구해준다.
- 그래서 VLoD에 포함되지 않는 서브 카테고리 세부 수준까지 계산되는 것이다.
[질문] 전자는 상위 카테고리 별 매출액의 평균을 구했다. 후자는 왜 서브 카테고리 별 매출액의 평균을 구하고 거기에서 합계를 하는 것인지 계산해보니 진짜 서브 카테고리별 합계였다. 그 이유는 그냥 값이 다른 걸 보여주기 위함이라고 생각했다. 맞나?
[질문] 평균으로 바꾸면 또 둘의 값이 달라진다. 하지만 뷰수준을 하위 카테고리로 내리면 같다. 이유는 아래와 같이 열에 해당하는 부분이 상위 카테고리 차원에서의 측정값이고 현재 뷰는 하위가 기준이라서가 맞나? 뷰 수준의 차원을 기준으로 비교하는 용도니까.
진짜 신기한 점, 서브 카테고리별로 평균을 구해 > 그리고 걔네만의 평균을 또 구해 그럼 값이 달라!!
1) 보통은 상황에 따라 다르지만, 일반적으로 서브 카테고리별로 평균을 구하는 경우가 더 많이 사용된다고 한다. 데이터의 세부 수준에서 분석하고자 할 때, 서브 카테고리 수준의 정보가 더 유용하기 때문이다. 서브 카테고리별로 평균을 구하면 더 세분화된 정보를 얻을 수 있어서 의사 결정에 도움이 된다.
2) 그러나 경우에 따라 상위 수준의 정보만 필요한 경우도 있다. 예를 들어, 높은 수준의 의사 결정을 내리기 위해 상위 카테고리별로 매출액의 평균을 비교하는 경우가 있을 수 있다. 이런 경우에는 카테고리별로 상품의 매출액을 집계하여 분석하는 것이 더 적합할 수 있다.
따라서 분석의 목적과 필요한 정보의 수준에 따라 적절한 방법을 선택하는 것이 중요하며 이것이 분석가의 역량이라고 생각이 된다. 데이터의 세부 수준을 고려하여 적절한 수준의 집계를 수행해야 겠다.
'학습 > 시각화' 카테고리의 다른 글
[태블로] Superstore KPI 대시보드 제작 (0) | 2024.02.28 |
---|---|
[태블로] 대시보드 설계와 구성 (4주차 복습) (0) | 2024.02.27 |
판다스 데이터프레임 apply 함수 적용 궁금증 해결완료 (0) | 2024.02.27 |
태블로 4주차 : 계산식 활용, 대시보드 만들기 (0) | 2024.02.25 |
태블로 3-2주차 : 박스 플랏(Box Plot) < 이슈 발생, 왜? (1) | 2024.02.25 |