2024. 2. 25. 00:53ㆍ학습/시각화
01 태블로 버전 치트시트
02 효과적인 차트를 고르는 방법_치트 시트
03 태블로에선 어떤 차트를 구현할 수 있을까?
04 참고할 실습 데이터 속성 정보
Boston Airbnb Open Data
A sneak peek into the Airbnb activity in Boston, MA, USA
www.kaggle.com
- listings
- Id: 고유 아이디
- Host Id: 호스트 아이디
- Host Name: 호스트 이름
- Host Is Superhost: 슈퍼 호스트인지 여부
- Host Since: 호스트 시작 날짜
- Neighbourhood: 보스턴 동네 구역
- Price: 숙소 가격
- Property Type: 숙박 시설 유형
- Room Type: 방 유형
- Review Scores Rating: 숙소 리뷰 평점
05 선 그래프 실습
💡선 그래프는 "시계열" 데이터(시간에 따른 추이를 시각화), "연속형" 데이터 활용에 적합하다.
[🔎실습 1] 연도별(2008-2016년) 에어비앤비 호스트 수 증가 추이를 선 그래프로 시각화 해본다.
✅ 열: Host Since(년)
✅ 행: 카운트(고유)(Host Id)
✅ 마크 레이블: 표시
✅ 색상: 그래프의 색상을 자유롭게 변경해주세요.
✅ 경로: 라인 패턴 유형을 2번째 선(--)으로 변경해주세요.
[tip] 너비 맞추기를 하면 내가 만든 그래프가 넓게 펼쳐진다.
☑️해석: 보스턴 에어앤비 호스트 수는 꾸준히 높은 폭으로 증가하고 있다. 2016년 data는 수집이 덜 된 것으로 보인다.
06 막대 그래프 실습
💡범주형 데이터(성별, 혈액형, 이름, 학년 등) 간의 차이나 분포를 시각적으로 이해하기 쉽다.
- 현황 파악을 할 때 보고서 앞 단에 많이 사용된다.
[🔎실습 2] 동네별 숙소 평균 가격 어느 동네가 숙소 평균 가격이 높을까? neighborhood_cleansed 별 평균 가격을 막대 그래프로 시각화 해본다.
✅ 색상: 그래프의 색상과 테두리 색상을 자유롭게 변경해주세요.
✅ 정렬: 필드 평균(Price) 내림차순 기준 정렬
✅ 화면 맞춤: 높이 맞추기
[tip] 추가하자면 '행' 우클릭으로 필드 기준 정렬을 할 수도 있다.
[tip] '색상'을 통해 테두리를 바꿔도 봤다.
☑️해석 : South Boston Waterfront 지역 숙소의 평균 가격이 눈에 띄게 높은 것을 알 수 있다.
07 맵 차트 실습
💡맵 차트를 활용할 수 있는 질문 모음
- 밤 시간대(오후 11시-새벽 2시)에 택시 이용률이 가장 높은 서울 자치구는 어디일까요?
- 각 지역별 ATM 기기의 위치를 분석하여 어떤 지역이 기기 수가 많은지 부족한지 알고 싶어요.
- 성수동의 맛집 위치와 분포가 궁금합니다!
💡맵 차트는 "지역별 데이터"의 분포 및 비중을 한 눈에 확인할 때 유용하다.
[🔎실습 3] 보스턴 지역에서 어느 구역이 숙소 리뷰 평균 평점이 가장 높을까? 평균 평점 분포를 맵 차트로 시각화 해본다.
✅ 세부정보: Zipcode
✅ 색상: 평균(Review Scores), 색상은 자유롭게 변경해주세요.
✅ 레이블
- Neighbourhood Cleansed: 폰트 볼드 처리, 폰트 크기(10pt)
- 평균(Review Scores)
✅ 백그라운드 레이어: 투명도 100%
✅ 도구 설명
- 도구 설명 표시: 마우스 오버
- 문제 발생: 이유는 "값"이 아닌 "평점"을 그래프에 이용해야 하는데 문제를 잘못 이해했다.
[tip] 실습 예시와의 차이점
1. zipcode를 행/열이 아닌 시트면에 드롭한다. (차이는 없어 보이는데 따라하기)
2. 리뷰 스코어 Vlaue가 아니다 리뷰 스코어 "Rating(평점)"을 색상과 레이블에 드롭한다.
3. 레이블 편집은 드래그하여 선택적으로 영역을 지정해서 적용할 수 있다.
4. 도구 설명도 마우스 오버로 "시간차"를 두고 오픈될 수 있도록 한다.
- 완성!
☑️해석: 보스턴 지역의 숙소는 모두 평점이 84점 이상이고, 평점 100점을 가진 숙소도 확인할 수 있다.
08 파이 차이 실습
- 1. 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있습니다.
- 2. 데이터의 구성 비율과 분포를 한눈에 파악할 수 있습니다.
- 장점: 변수가 적을 때 직관적으로 사용하기 용이합니다. (5개 미만 정도?)
- 단점: 다양한 변수를 다루기에는 적합하지 않을 수 있습니다.
[🔎실습 4] 어떤 룸 타입이 가장 많은 비중을 차지하고 있을지 파이차트로 시각화 해본다.
✅ 색상: Room Type 색상표에서 연한 번개를 선택해주세요. <- 어렵다. 처음 해봄.
✅ 각도: 카운트(고유)(Id)의 퀵테이블 '구성 비율' <- 각도에서 조정 가능.
✅ 측정값: 카운트(고유)(Id) <- 따로 준 건 없음. 맞나?
✅ 레이블: Room Type, 측정값을 순서대로 표시해주세요.
- Room Type: 폰트 볼드 처리, 폰트 크기(12pt), 사용자 지정 색상(#4B89DC)
- 측정값: 폰트 볼드 처리, 폰트 크기(10pt)
✅ 화면 맞춤: 전체 보기
- 필드를 행/열/워크시트에 둘 뿐만 아니라 색상표에도 올려놓을 수 있다. (이부분을 처음 배웠다.)
- '각도' 편집으로 '퀵 테이블 계산 - 구성 비율'이 가능하다.
☑️해석: 숙소 중 가장 많은 타입이 59.33% 주택/아파트가 차지했고, 가장 적은 것은 쉐어 룸 2.23% 를 볼 수 있다.
09 트리맵 차트 실습
- "상품 카테고리"는 상위 계층, "지역"을 하위 계층으로 잡고 트리맵 제작 가능
- "책의 종류"가 상위 계층, "지역"을 하위 계층으로 잡고 트리맵 제작 가능
[🔎실습 5] 가장 많이 리스트된 호스트 이름 가장 많이 리스트된 호스트는 누구일까?
- 호스트의 숙소의 평균 가격과 숙소 가격 합계가 궁금하다.
- 숙소 가격 합계가 큰 순서대로 색상을 나타내자.
- 트리맵 차트로 시각화 해본다.
✅ 열: 합계(Host Listings Count)
✅ 행: Host Name
✅ 레이블: Host Name, 평균(Price)
✅ 색상: 합계(Price), 색상 파란색-녹색 단일
- 트리맵 차트로 바꾸면 행/열 데이터가 빠지고 마크로 넘어오는데 색상 값이 원하는 바와 달라도 제거하지 말고 새로운 값을 올려두면 덮어씌울 수 있다.
☑️해석 : Kara(님)이 평균 숙소 가격은 낮고 많이 예약된 호스트인 점을 알 수 있다.
10 (심화) 도넛 차트 (Donut Chart)
11 (심화) 히트맵 차트 (Heatmap Chart)
12 (심화) 영역 차트 (Area Chart)
13 (심화) 스택 플랏 (Stacked Plot)
[🔎실습 6] 일반 호스트와 슈퍼 호스트의 응답 시간별 비중 비교
- 슈퍼 호스트가 일반 호스트보다 응답 시간이 빠를 것이다라고 가설을 설정할 수도 있다.
- Host Response Time별(1시간내 응답, 몇시간내 응답 등) 슈퍼 호스트와 일반 호스트 수를 단순 누적 그래프로 시각화 해본다.
✅ 색상: 슈퍼 호스트와 일반 호스트 수의 색상을 다르게 표현해주세요. 색상표에서 여름을 선택해주세요.
✅ 레이블: 마크 레이블 표시
✅ 축: 행 머리글 숨기기
✅ 범례: 표시
✅ 화면 맞춤: 너비 맞추기
- 문제 발생: 행과 열에 데이터를 맞게 입력했으나 측정값을 잘못 기입하여 그래프가 형성되지 않음.
1. 문제 해결: 행 데이터를 카운트(고유=distinct)가 아닌 카운트로 변경해준다.
2. 색상 탭에 슈퍼인지/일반인지의 불린값(참/거짓)을 올려서 둘을 구분한다.
3. 표현 방식에서 누적 막대 그래프를 따로 눌러서 적용하지 않는다.
- 완성!
[tip] 여기서 100% 누적 그래프로 나타내면 시각화를 좀 더 직관적으로 표현할 수 있겠다.
☑️해석: 슈퍼 호스트들 중에서 응답 시간이 1시간 내로 제일 빠른 호스트들의 비중이 가장 높았다.
14 (옵션) 이중 축 (콤보차트)
- 하나의 차원을 두개 이상의 측정값으로 동시에 파악하고 싶을 때 이중축을 활용한다.
15 (옵션) 평균선, 참조선
- 분석 패널에서 평균선 라인/상수 라인/참조선을 추가해서 의사결정을 빠르게 할 수 있다.
'학습 > 시각화' 카테고리의 다른 글
태블로 4주차 : 계산식 활용, 대시보드 만들기 (0) | 2024.02.25 |
---|---|
태블로 3-2주차 : 박스 플랏(Box Plot) < 이슈 발생, 왜? (1) | 2024.02.25 |
태블로 2주차 : 태블로 맛보기 (0) | 2024.02.24 |
태블로 1주차 : BI, 태블로 개념잡기 (0) | 2024.02.21 |
데이터 전처리 & 시각화 4주차 : 시각화 (0) | 2024.01.26 |