태블로 3-1주차 : airbnb data set 실습

2024. 2. 25. 00:53학습/시각화

 

01 태블로 버전 치트시트


시트 설명 - 상(비교) 하(구성) 좌(관계) 우(분포)

 

02 효과적인 차트를 고르는 방법_치트 시트


출처 - Chart Suggestions A Thought Scatter (by. Andrew Abela)

 

03 태블로에선 어떤 차트를 구현할 수 있을까?


 

04 참고할 실습 데이터 속성 정보


 

Boston Airbnb Open Data

A sneak peek into the Airbnb activity in Boston, MA, USA

www.kaggle.com

  • listings
    • Id: 고유 아이디
    • Host Id: 호스트 아이디
    • Host Name: 호스트 이름
    • Host Is Superhost: 슈퍼 호스트인지 여부
    • Host Since: 호스트 시작 날짜
    • Neighbourhood: 보스턴 동네 구역
    • Price: 숙소 가격
    • Property Type: 숙박 시설 유형
    • Room Type: 방 유형
    • Review Scores Rating: 숙소 리뷰 평점

 

05 선 그래프 실습


💡선 그래프는 "시계열" 데이터(시간에 따른 추이를 시각화), "연속형" 데이터 활용에 적합하다.

 

[🔎실습 1] 연도별(2008-2016년) 에어비앤비 호스트 수 증가 추이를 선 그래프로 시각화 해본다.

 

✅ 열: Host Since(년)
✅ 행: 카운트(고유)(Host Id)
✅ 마크 레이블: 표시
✅ 색상: 그래프의 색상을 자유롭게 변경해주세요.
✅ 경로: 라인 패턴 유형을 2번째 선(--)으로 변경해주세요.

 

 

[tip] 너비 맞추기를 하면 내가 만든 그래프가 넓게 펼쳐진다.

 

 

☑️해석: 보스턴 에어앤비 호스트 수는 꾸준히 높은 폭으로 증가하고 있다. 2016년 data는 수집이 덜 된 것으로 보인다.

 

06 막대 그래프 실습


💡범주형 데이터(성별, 혈액형, 이름, 학년 등) 간의 차이나 분포를 시각적으로 이해하기 쉽다.

 

- 현황 파악을 할 때 보고서 앞 단에 많이 사용된다.

 

[🔎실습 2] 동네별 숙소 평균 가격 어느 동네가 숙소 평균 가격이 높을까? neighborhood_cleansed 별 평균 가격을 막대 그래프로 시각화 해본다.

 

✅ 색상: 그래프의 색상과 테두리 색상을 자유롭게 변경해주세요.
✅ 정렬: 필드 평균(Price) 내림차순 기준 정렬
✅ 화면 맞춤: 높이 맞추기

 

 

[tip] 추가하자면 '행' 우클릭으로 필드 기준 정렬을 할 수도 있다.

 

 

[tip] '색상'을 통해 테두리를 바꿔도 봤다.

 

 

☑️해석 : South Boston Waterfront 지역 숙소의 평균 가격이 눈에 띄게 높은 것을 알 수 있다.

 

07 맵 차트 실습


💡맵 차트를 활용할 수 있는 질문 모음
- 밤 시간대(오후 11시-새벽 2시)에 택시 이용률이 가장 높은 서울 자치구는 어디일까요?
- 각 지역별 ATM 기기의 위치를 분석하여 어떤 지역이 기기 수가 많은지 부족한지 알고 싶어요.
- 성수동의 맛집 위치와 분포가 궁금합니다!
💡맵 차트는 "지역별 데이터"의 분포 및 비중을 한 눈에 확인할 때 유용하다.

 

[🔎실습 3] 보스턴 지역에서 어느 구역이 숙소 리뷰 평균 평점이 가장 높을까? 평균 평점 분포를 맵 차트로 시각화 해본다.

 

✅ 세부정보: Zipcode
✅ 색상: 평균(Review Scores), 색상은 자유롭게 변경해주세요.
✅ 레이블
- Neighbourhood Cleansed: 폰트 볼드 처리, 폰트 크기(10pt)
- 평균(Review Scores)

✅ 백그라운드 레이어: 투명도 100%
✅ 도구 설명
- 도구 설명 표시: 마우스 오버

 

- 문제 발생: 이유는 "값"이 아닌 "평점"을 그래프에 이용해야 하는데 문제를 잘못 이해했다.

 

 

[tip] 실습 예시와의 차이점

1. zipcode를 행/열이 아닌 시트면에 드롭한다. (차이는 없어 보이는데 따라하기)

2. 리뷰 스코어 Vlaue가 아니다 리뷰 스코어 "Rating(평점)"을 색상과 레이블에 드롭한다.

3. 레이블 편집은 드래그하여 선택적으로 영역을 지정해서 적용할 수 있다.

4. 도구 설명도 마우스 오버로 "시간차"를 두고 오픈될 수 있도록 한다.

 

레이블 편집 - 영역 선택
도구 설명 편집 - 즉각 반응 X, 마우스오버 O

 

- 완성!

 

 

☑️해석: 보스턴 지역의 숙소는 모두 평점이 84점 이상이고, 평점 100점을 가진 숙소도 확인할 수 있다.

 

08 파이 차이 실습


- 1. 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있습니다.
- 2. 데이터의 구성 비율과 분포를 한눈에 파악할 수 있습니다.
- 장점: 변수가 적을 때 직관적으로 사용하기 용이합니다. (5개 미만 정도?)
- 단점: 다양한 변수를 다루기에는 적합하지 않을 수 있습니다.

 

[🔎실습 4] 어떤 룸 타입이 가장 많은 비중을 차지하고 있을지 파이차트로 시각화 해본다.

 

✅ 색상: Room Type 색상표에서 연한 번개를 선택해주세요. <- 어렵다. 처음 해봄.
✅ 각도: 카운트(고유)(Id)의 퀵테이블 '구성 비율' <- 각도에서 조정 가능.
✅ 측정값: 카운트(고유)(Id) <- 따로 준 건 없음. 맞나?
✅ 레이블: Room Type, 측정값을 순서대로 표시해주세요.
- Room Type: 폰트 볼드 처리, 폰트 크기(12pt), 사용자 지정 색상(#4B89DC)
- 측정값: 폰트 볼드 처리, 폰트 크기(10pt)
✅ 화면 맞춤: 전체 보기

 

- 필드를 행/열/워크시트에 둘 뿐만 아니라 색상표에도 올려놓을 수 있다. (이부분을 처음 배웠다.)

 

 

- '각도' 편집으로 '퀵 테이블 계산 - 구성 비율'이 가능하다.

 

 

☑️해석: 숙소 중 가장 많은 타입이 59.33% 주택/아파트가 차지했고, 가장 적은 것은 쉐어 룸 2.23% 를 볼 수 있다.

 

09 트리맵 차트 실습


 

- "상품 카테고리"는 상위 계층, "지역"을 하위 계층으로 잡고 트리맵 제작 가능

- "책의 종류"가 상위 계층, "지역"을 하위 계층으로 잡고 트리맵 제작 가능

 

 

[🔎실습 5] 가장 많이 리스트된 호스트 이름 가장 많이 리스트된 호스트는 누구일까?

 

- 호스트의 숙소의 평균 가격과 숙소 가격 합계가 궁금하다.

- 숙소 가격 합계가 큰 순서대로 색상을 나타내자.

- 트리맵 차트로 시각화 해본다.

 

✅ 열: 합계(Host Listings Count)
✅ 행: Host Name
✅ 레이블: Host Name, 평균(Price)
✅ 색상: 합계(Price), 색상 파란색-녹색 단일

 

 

- 트리맵 차트로 바꾸면 행/열 데이터가 빠지고 마크로 넘어오는데 색상 값이 원하는 바와 달라도 제거하지 말고 새로운 값을 올려두면 덮어씌울 수 있다.

 

☑️해석 : Kara(님)이 평균 숙소 가격은 낮고 많이 예약된 호스트인 점을 알 수 있다.

 

10 (심화) 도넛 차트 (Donut Chart)


 

11 (심화) 히트맵 차트 (Heatmap Chart)


 

12 (심화) 영역 차트 (Area Chart)


 

13 (심화) 스택 플랏 (Stacked Plot)


 

[🔎실습 6] 일반 호스트와 슈퍼 호스트의 응답 시간별 비중 비교

- 슈퍼 호스트가 일반 호스트보다 응답 시간이 빠를 것이다라고 가설을 설정할 수도 있다.
- Host Response Time별(1시간내 응답, 몇시간내 응답 등) 슈퍼 호스트와 일반 호스트 수를 단순 누적 그래프로 시각화 해본다.

 

✅ 색상: 슈퍼 호스트와 일반 호스트 수의 색상을 다르게 표현해주세요. 색상표에서 여름을 선택해주세요.
✅ 레이블: 마크 레이블 표시
✅ 축: 행 머리글 숨기기
✅ 범례: 표시
✅ 화면 맞춤: 너비 맞추기

 

- 문제 발생: 행과 열에 데이터를 맞게 입력했으나 측정값을 잘못 기입하여 그래프가 형성되지 않음.

 

 

1. 문제 해결: 행 데이터를 카운트(고유=distinct)가 아닌 카운트로 변경해준다.

2. 색상 탭에 슈퍼인지/일반인지의 불린값(참/거짓)을 올려서 둘을 구분한다.

3. 표현 방식에서 누적 막대 그래프를 따로 눌러서 적용하지 않는다.

 

 

- 완성!

 

 

[tip] 여기서 100% 누적 그래프로 나타내면 시각화를 좀 더 직관적으로 표현할 수 있겠다.

 

☑️해석: 슈퍼 호스트들 중에서 응답 시간이 1시간 내로 제일 빠른 호스트들의 비중이 가장 높았다.

 

14 (옵션) 이중 축 (콤보차트)


- 하나의 차원을 두개 이상의 측정값으로 동시에 파악하고 싶을 때 이중축을 활용한다.

 

 

 

15 (옵션) 평균선, 참조선


- 분석 패널에서 평균선 라인/상수 라인/참조선을 추가해서 의사결정을 빠르게 할 수 있다.