홍동이의 성장일기

[👩‍💻TIL 17일차 ] 유데미 스타터스 취업 부트캠프 4기 본문

교육/유데미 스타터스 4기

[👩‍💻TIL 17일차 ] 유데미 스타터스 취업 부트캠프 4기

홍동2 2023. 3. 1. 22:44

목차

 

[섹션1] 시작하는 것은 정말 쉽습니다

[섹션2] Tableau 기본 사항: 여러분의 첫번째 막대 차트

[섹션3] 시계열, 어그리게이션 및 필터

[섹션4] 지도, 산점도 및 여러분의 첫번째 대시보드

[섹션5] 결합, 블랜딩 및 관계; 이중 축 차트

 


[섹션1] 시작하는 것은 정말 쉽습니다

 

태블로란?

태블로는 데이터를 이용해 무슨 작업이든 할 수 있는 만능 도구이다. 사람들이 데이터를 쉽게 알아보고 이해할 수 있게 하기 위해 만들어진 프로그램이다. 

 

태블로 설치

나는 이전에 2주동안 무료로 태블로를 사용했기 때문에 공용버전으로 다운로드를 받았다.

 

 

Discover

Explore stunning data visualizations and the talented community that creates them on Tableau Public.

public.tableau.com

 

 

연습

 

[강의에 쓰일 데이터 셋이 들어있는 사이트]

 

 

Tableau Course: Download Practice Datasets - Page - SuperDataScience | Machine Learning | AI | Data Science Career | Analytics |

Download the top first file if you are using Windows and download the second file if you are using Mac. Remember, to import CSV files into Tableau, select the “Text File” option (not Excel).

www.superdatascience.com

 

 

 

간단한 작업을 통해 가장 수익성이 낮은 주는 노스 캐롤라이나 주이고  가장 수익성이 높은 주는 캘리포니아 주인것을 확인할 수 있다.


[섹션2] Tableau 기본 사항: 여러분의 첫번째 막대 차트

 

📍 CSV 파일은 콤마로 구분된 텍스트로 되어있기 때문에 텍스트 파일로 선택해주어야한다.

 

📍 데이터는 항상 dimension(치수)과 Measure(값)로 구분된다. 이 두가지는 데이터 요소 내에서 서로 다른 역할을 가진다. 보통 태블로는 '값'을 두 개 이상의 '치수'에 넣어서 이들을 카테고리화 시킨다.

  • 치수: 독립적인 변수
  • 값: 종속적인 변수

 

 

📍 [표현 방식] 기능을 사용하여 다양한 그래프를 손쉽게 그려볼 수 있었다.

 

 

📍 대시보드 초기화 기능

대시보드 초기화

 

보너스를 받을 직원 찾아내기

 

  • 지역별로 직원을 나누기 위해 Rep 앞에 Region을 넣는다. (순서에 따라 결과가 달라짐)
  • 축 옆에 있는 아이콘을 누르면 막대의 크기대로 정렬된다.
  • '총판매량'을 알아내기 위해 계산된 필드를 만들었다.

➡️ 보너스를 받을 직원은 Matthew, Susan, James이다👏

 

 

 

  • Ctrl을 누른채로 버튼을 움직이면 복사가 된다.
  • 데이터의 의미를 가장 잘 보여줄 수 있도록 색상을 지정한다. 해당 예제에서는 막대의 크기로 총 판매가격의 합계를 나타냈기 때문에 색상으로는 지역을 구분해주었다.

 

 

  • 라벨(레이블)을 통해 원하는 사람의 Total Sales를 바로 확인할 수 있도록 했다.
  • 서식 설정을 통해 패널과 축을 보기 좋게 변경해주었다.

 

📍 '내보내기' 기능을 통해 작업물을 다른 파일에 이미지 형태로 전달하는 법

 

1️⃣ 워크시트 > 내보내기 > 이미지

2️⃣ 원하는 이미지 우클릭 > 복사 > 이미지

 

간편해보이지만 공용버전에서는 사용이 불가능한 기능인 것 같다🥲

 

시트 이름을 변경해준 후 파일을 저장했다.

 

퀴즈

 

[정답]

더보기

1. Text File

2. Dimensions and Measures

3. These are custom variables that you create from fields provided in the Data

4. No limit

5. The main thing to take into account is the end user/viewer. Colours should assist them in seeing the insights your chart is portraying.


[섹션3] 시계열, 어그리게이션 및 필터

 

📍 데이터 추출하기: 데이터 우클릭 > csv로 데이터 내보내기 > 원하는 sheet 선택

➡️ 추출 기능을 사용하는 이유: 크기가 크거나 동적인 데이터셋을 쓰면 실시간 연결 방식은 속도가 느리고 신뢰성이 떨어지기 때문이다.

 

📍 태블로는 치수를 파란색으로, 은 초록색으로 하이라이트 한다. 태블로는 계산식 등으로 새로 만든 변수를 치수로 인식한다.

 

월을 치수와 값으로 설정했을 때의 차이

 

➡️ 시계열을 다룰 때 중요한 것은 본인이 가지고 있는 시간 데이터치수, 값, 카테고리 중 무엇으로 만들고 싶은지 정확하게 알아야 한다는 것이다.

 

분석 > 측정값 집계 OFF

 

Gender의 색상을 사용하여 데이터 세분화

 

집합기능은 이러한 세분화와 함께 동작한다.

 

[정보를 세분화하는 방법]

1️⃣ 치수를 늘린다.

2️⃣ 작업물의 외형에 영향없이 세분화하는 법: 세부정보 활용

 

 

[하이라이트 기능]

보고 싶은 것을 빠르고 정확하게 식별하여 이해할 수 있다.

➡️ 한 성별의 정보만 보고싶으면 정보를 얻고 싶은 성별을 클릭하면 된다.

 

 

하이라이트 기능이 실행되지 않는다면 선택된 항목 하이라이트를 선택한 후, 다시 실행한다.

 

지역차트

 

필터

📍 퀵 필터: 필터 우클릭 > 필터 표시

 

 

퀴즈

 

정답
더보기

1. Your Data is constantly being updated and you want to work with a static file when building your visual (you will later retuen to the live connection when the visual is ready)

2. Blue is a dimension and Green is a measure; Blue ignores higher periods such as year and treats month as a category - just like Gender; Green creates a proper timeline

3. Values are always aggregated at the level of granularity of the worksheet

4. An area chart stacks up values of different categories on top of each other, whereas a line chart visualises them separately

5. JSON Lookup (Category)


[섹션4] 지도, 산점도 및 여러분의 첫번째 대시보드

 

데이터 결합하기

➡️ 더블클릭하여 테이블을 물리 계층으로 옮긴 후 작업한다.

 

 

 

지도 생성, 계층 작업하기

 

➡️ Country, State, City를 Geography라는 계층으로 만들었다.

 

➡️ 각 주에서 얼마나 많은 순이익을 기록했는지 알아보기

※ 순이익 = 수익합계 / 매출합계

 

 

산점도 생성, 여러 워크시트에 필터 적용하기

📍 산점도 생성: 세부정보에 Customer Name 넣기

📍 여러 워크시트에 필터 적용하기: 적용하고 싶은 필터 우클릭 > 워크시트에 적용 > 이 데이터 원본을 사용하는 모든 항목 ➡️ 이 데이터 소스를 이용하는 그 어떤 워크시트든 자동으로 해당 필터를 이용하게 된다.

 

 

➡️ 고객에 따른 수익률 표시

 

 

첫번째 대시보드를 만들어 봅시다!

 

 

📍 대시보드 > 동작

대화형 작업 추가하기 - 필터

대시보드 화살표 > 필터로 사용

 

 

 

대화형 작업 추가하기 - 강조(하이라이트)

 

필터와 하이라이트의 차이⭐

 

필터는 데이터셋 자체를 걸러내서 산점도를 재구성하는 방식이다.

하이라이트는 워크시트를 필터링하는 것이 아니라 '값'만 하이라이트 한다. ➡️ 따라서 워크시트에서 정보 세분화 작업을잘 해주어야 한다. 

 

 

퀴즈

 

정답
더보기

1. When there are hierarchies present in the Dimensions and Tableau needs to know about them for you to build your visualisation.

2. All of the above (All using this data source, Selected worksheets, Only this worksheet)

3. True

4. When you use Action: Filter, you are removing data from analysis before it is illustrated on the visualisation
when you use Action: Highlight, first all of the data is visualised, and only after that the action is applied.
This can lead to discrepancies in results.

5. True

 

🔎 오답정리

두번째 문제가 잘 이해가 안갔는데 세가지 방법이 모두 다른 방법이라 All of the above가 정답이었던 것 같다. 문제보다 영어가 더 어려버🥲


[섹션5] 결합, 블랜딩 및 관계; 이중 축 차트

 

LEFT, RIGHT, INNER, OUTER 조인의 작동 방식 이해

Inner Join: 일치하는 행만 가져온

 

⭐Left (Outer) Join:  왼쪽이 주요 표가 된다

Right (Outer) Join:  오른쪽이 주요 표가 된다

Full (Outer) Join:  두 표의 모든 행을 가져온다

On: A.Customer = B.Employee

 

중복 값이 있는 결합

➡️ 다중 일치가 일어날 때마다 여러 번 일치된 행들이 복제된다.

 

 

여러 필드로 결합하기
On: A.OrderNum = B.OrderNum
AND A.Store = B.Store

➡️ 특정한 경우 오류를 발생시키지 않기 위해 사용

 

 

Tableau에서 데이터 결합 vs 데이터 블랜딩

➡️ Listoforders와 Orderbreakdown은 결합해주고 Salestargets는 블랜딩해준다.

블랜딩 하는 법: 메인 화면으로 돌아와서 데이터 소스 추가

 

[데이터 블렌딩 하는 이유]

1️⃣ 데이터 세트의 세분화 수준이 달라서

2️⃣ 데이터 세트가 기본적으로 다른 유형의 데이터 소스여서 (pdf, SQL 등)

 

Joining 🆚 Blending

결합: 행 수준에서 데이터를 조합할 때 사용한다 → 데이터에서 정보가 손실된다

블렌딩

  • 데이터 소스가 다른 세분화 수준을 가졌을 때
  • 데이터 소스가 다른 시스템에서 올 때

 

Tableau의 데이터 블랜딩

➡️ 똑똑한 Left Join

 

 

📍 블렌드 작동법: 데이터 집합 > 최종 결과에서 데이터 결합

📍 블렌딩을 하면 왼쪽에 주황색 선이 생긴다.

📍 관계 추가하기: 데이터 > 혼합 관계 편집 > 관계 추가

📍 블렌딩은 시트 한 개를 기반으로 작업한다.

 

 

이중 축 차트

관계 추가 (년&월)

 

 

➡️ 그래프 해석

Furniture 부서: 선형적으로 상승하는 목표액

Office Supplies 부서: 3개월마다 분기별로 목표액 설정

Technology 부서: 연단위로 목표액 설정

 

 

이중 축만들기: Target 우클릭 > 이중 축

보조 축 우클릭 > 축 동기화

 

 

블랜드에서 계산된 필드 만들기 (고급 주제)

= 블렌딩되는 표 두개 모두에서 데이터 요소를 요구하는 계산된 필드를 생성하는 방법

 

 

 

➡️ Office Supplies 부서의 목표액 설정 방식이 세부서중 가장 좋다는 것을 확인할 수 있다. 

 

 

데이터 모델

데이터 스키마를 태블로 데이터 모델로 만들기

⭐ 논리 계층에서 작업하기

 

 

 

Tableau에서 관계 작업하기

📍 위도 or 경도 인식을 못할 때: # > 지리적 역할

📍 맵 > 배경맵 > 거리

📍 관계와 조인을 함께 사용할 수 있다.

 

 

 

퀴즈

 

오답정리

Q. What can happen if you join on a single field when it is required to join on multiple fields?

A. Rows will be duplicated without an actual reason, Hyper-inflation of measures, Incorrect insights and business decisions

 

[강의 35. 여러 필드에 결합하기] 내용 참고

➡️ OrderNum 필드로 단일 필드 결합하면 오류 발생! Store까지 함께 조인해주기

틀린 이유: 필드가 열이라는 것을 까먹어서 틀렸다


👥 파트너간 상보적 학습 및 강의 내용 리뷰

 

아직 태블로 수강 초반이라 크게 어려운 부분은 없었고, 서로 태블로를 설치할 때 어려운 점을 공유하고 되는 기능과 안되는 기능을 비교해보았다.

 

 

✍️ 마무리하며

마지막 실습 단계에서 데이터가 너무 컸는지 노트북이 힘들어했지만 ,, 태블로 너무 재밌다🤩 평소에도 시각화하는걸 좋아해서 나는 데이터 디자이너 되야겠다고 장난식으로 이야기하곤 했는데 태블로를 배울수록 이런 내 적성에 딱 맞는 툴이라는 생각이 든다. 물론 심화된 내용을 가면 더 어려워지겠지만 열심히 배워서 멋진 시각화까지 해내고싶다.

 

그리고 파일을 원하는 폴더에 다운받기 위해 파일 우클릭 > 다른 이름으로 링크 저장 이라는 기능이 있다는 것을 태블로 강의를 통해 알게 되었다. 태블로에 관한 내용을 배우면서 기본적인 작업을 편리하게 할 수 있는 다양한 방법들도 배울 수 있는 것 같아서 좋았다. 다른 분들의 컴퓨터 작업 꿀팁이 있는지도 듣고 싶어졌다🤭


* 유데미 큐레이션 바로가기 : https://bit.ly/3HRWeVL

* STARTERS 취업 부트캠프 공식 블로그 : https://blog.naver.com/udemy-wjtb

📌 본 후기는 유데미-웅진씽크빅 취업 부트캠프 4기 데이터분석/시각화 학습 일지 리뷰로 작성되었습니다.

728x90
Comments