기타/Misc.
(쉽게 알려주는) 데이터분석 용어정리 : 밑줄만 읽어줘:)
0sean
2023. 12. 1. 18:15
2023-12-01
Data
- 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료.
- 관찰이나 실험, 조사로 얻은 사실이나 자료.
- 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료.
Analyst
- 애널리스트(analyst) 또는 분석가는 특정 주제의 분석을 하는 사람이다.
2023-12-05
IoT(Internet of Things)
- 사물 인터넷(Internet of Things)은 세상에 존재하는 유형 혹은 무형의 객체들이 다양한 방식으로 서로 연결되어 개별 객체들이 제공하지 못했던 새로운 서비스를 제공하는 것을 말한다.
- 쉽게 말해, 우리 주변의 일상적인 물건이나 기기들이 인터넷을 통해 서로 연결되고 정보를 교환하는 개념을 나타낸다. 이를 통해 우리에게 유용한 정보를 제공하는 것을 말한다.
- 기존의 인터넷이 컴퓨터나 무선 인터넷이 가능했던 휴대전화들이 서로 연결되어 구성되었던 것과는 달리, 사물인터넷은 책상, 자동차, 가방, 나무, 애완견 등 세상에 존재하는 모든 사물이 연결되어 구성된 인터넷이라 할 수 있다.
- 사물인터넷은 연결되는 대상에 있어서 책상이나 자동차처럼 단순히 유형의 사물에만 국한되지 않으며, 교실, 커피숍, 버스정류장 등 공간은 물론 상점의 결제 프로세스 등 무형의 사물까지도 그 대상에 포함한다. /국립중앙과학관
BI(Business Intelligence)
- 비즈니스 인텔리전스(BI)란 기업이 데이터를 수집, 분석하여 전략적인 결정을 내리고 비즈니스 성과를 향상시키기 위해 사용하는 기술과 프로세스를 말한다.
- 쉽게 말해, 기업이 뭔가를 판매하거나 일을 하는 데 도움이 되는 정보를 수집하고 분석해서 더 현명한 결정을 내리게 도와주는 도구와 방법이다.
- BI 시스템은 기업이 가진 다양한 데이터를 한데 모아서, 쉽게 이해할 수 있는 그래픽이나 차트로 보여줄 수 있다. 이렇게 보여지는 정보들을 통해 기업은 어떤 제품이 잘 팔리고 있는지, 어떤 서비스가 필요한지 등을 알 수 있다.
- 한 마디로, 기업이 자신의 일을 더 효과적으로 수행하고 발전시킬 수 있도록 도와주는 정보 분석 도구와 방법이다.
- 비즈니스 인텔리전스(BI, Business Intelligence)란 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스를 말한다(양정식 외, 2013; Turban & Volonino, 2010). 즉 기업의 사용자가 더 좋은 의사결정을 하도록 데이터를 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술인 것이다.
- 고객의 수익성, 고객별 위험도, 고객의 행동 패턴 정보 등이 BI의 산출물이다. BI 시스템은 다양한 분석과 그 결과를 공유할 수 있는 기반 시스템을 구축하고 고급 정보를 이용해 신속하고 정확한 의사결정을 하도록 함으로써 최대의 이윤을 창출할 수 있도록 지원해 주는 솔루션의 집합이다(노규성·조남재, 2010; Laudon & Laudon, 2006).
- 실무적으로 BI는 질의(query), 보고(reporting), 온라인 분석처리(OLAP, Online Analytic Processing), 통계분석, 예측, 데이터마이닝 등의 결합이다. /기업을 바꾼 10대 정보 시스템
2023-12-22
CSV (Comma Seprated Value)
- CSV 파일은 콤마(,)로 데이터를 구분하는 파일 형식이다. 이 파일 형식은 텍스트 파일이며, 간단한 표 형식의 데이터를 저장할 때 많이 사용된다.
- 한 줄로 설명하자면, CSV 파일은 데이터를 표 형식으로 쉽게 저장하고 공유할 수 있는 파일 형식이다.
- CSV 파일은 행과 열로 이루어져 있는데, 각 행은 데이터 레코드를 나타내고, 각 열은 데이터 레코드의 속성이다. 행과 열 사이를 콤마로 나누어 표현하기 때문에 "콤마로 구분된 값"이라고 부른다.
- 예를 들어, 학생들의 성적을 저장하는 CSV 파일이 있다면, 각 행은 한 명의 학생의 정보를 나타내고, 각 열은 학생의 이름, 과목, 성적 등과 같은 정보를 담을 수 있다.
- CSV 파일은 엑셀에서도 활용할 수 있고, 글꼴과 같은 서식 정보들이 없기 때문에 조금 더 원형 그대로 가공하기가 좋은 데이터 형식이다. 텍스트 에디터 등으로도 쉽게 만들 수 있다는 것도 장점이다.
2023-12-25
탐색적 데이터 분석(Exploratory Data Analysis, EDA)
- 쉽게 말해, 데이터의 비밀을 풀어가는 모험이며 데이터 분석가는 데이터 모험가라고 할 수 있다. EDA란 데이터베이스를 탐험해서 데이터들이 어떤 모습인지 알아보는 과정이다. 그래서 EDA를 통해 데이터의 패턴이나 특징을 발견할 수 있다. 각종 통계적 그래프나 차트를 그려보면서 데이터의 이야기를 찾는 것이라고 생각해도 된다.
- 구체적인 가설 없이 데이터에 숨겨진 구조와 패턴을 탐색하는 데이터 분석 방법을 말한다.
- EDA는 기본적으로 원 데이터(raw data)를 가지고 유연하게 데이터의 특성을 파악하고, 모델링에 필요한 데이터를 편성한다. 이 과정에는 데이터의 가독성을 높이기 위해서 다양한 데이터 시각화 기법도 함께 활용된다.
- 데이터 분석은 일반적으로 접근법에 따라 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(Confirmatory Data Analysis, CDA)으로 나뉜다. 두 접근법의 근본적인 차이는 분석하기 전에 가설이 있는지에 있다. EDA는 데이터를 보고 가설을 만들어내는 반면, CDA는 기존의 가설이 맞는지를 데이터를 통해 확인하는 것이다.
- EDA는 1970년대에 벨 연구소의 수학자인 존 튜키(John Tukey)에 의해 제안된다. EDA가 등장하기 전의 통계 분석은 대개 연구자가 미리 설정한 가설을 검증하는 확증적 분석에 치우쳐 있다. 그러나 튜키는 CDA 방식을 이용하면 연구자의 기존 가설을 벗어난 새로운 통찰을 얻기 어렵다는 한계가 있다고 지적했다.
- 이런 한계를 극복한 EDA는 원 데이터의 분포 및 값에 대한 기본적인 탐색과 이해를 토대로, 데이터가 표현하는 현상을 더 잘 이해할 수 있으며 데이터에 대한 잠재적인 문제를 발견할 수 있다. 탐색적 데이터 분석에서 ‘탐색적’이란 말은 연구자가 풀고자 하는 문제에 대한 이해가 연구가 진행되면서 바뀌게 될 수 있음을 의미한다.
- EDA의 기본적인 분석 절차는 다음과 같다. 첫째, 연구 목적 및 분석 데이터를 확인한다. 이 과정에는 해결하고자 하는 문제가 무엇인지 파악하고, 데이터에 독립변수와 종속변수가 무엇인지 구분해야 한다.
- 둘째, 데이터를 전반적으로 살펴본다. 데이터에 문제가 없는지 확인해야 한다. 예를 들어 이상치나 결측치가 없는지를 확인할 필요가 있다. 또한 평균, 중앙값, 최빈값을 비롯한 통계 지표를 살펴보는 것도 좋다.
- 셋째, 시각화를 통해 데이터의 대략적인 분포를 파악하고 개별 속성값을 관찰한다. 히스토그램(histogram), 막대그래프(bar chart), 히트맵(heat map), 산점도(scatter plot) 등을 통해 변수의 분포를 시각화한다. 이를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 판단할 수 있다.
- 넷째, 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견한다. 이 과정의 목표는 유의미한 상관관계를 갖는 속성의 조합을 찾아내는 것이다. /AI 용어사전
ROI(Return on Investment) 관점
- ROI는 "Return on Investment"의 약자로, 투자에 대한 수익을 나타내는 개념이다.
- 예를 들어, 창업을 했다고 가정하자. 내가 판매할 제품은 수제 초콜릿이다. 이 때 초콜릿을 만들 때 쓴 돈을 '투자'라고 한다. 창업자에게 중요한 건 이 돈을 '얼마나 빨리 다시 벌어들이느냐'다.
- 이제 만든 초콜릿을 팔면 돈을 벌게 된다. 그리고 얼마나 많은 돈을 벌었는지를 알 수 있다. 이 때 ROI가 등장한다. ROI는 초콜릿을 만들 때 '투자한 돈' 대비 '얼마나 많은 돈을 벌었느냐'를 나타내는 것이다.
- 간단하게 말해, ROI가 높다는 건 창업자가 투자한 돈을 빨리 벌어들인다는 뜻이다. 그래서 좋은 사업이라고 할 수 있다. 하지만 ROI가 낮다면, 돈을 빨리 못 벌었다는 뜻이다. 이렇게 ROI 관점에서 어떤 사업이 더 좋을지 비교할 수 있다.
심슨의 역설
- 통계학에서 중요한 개념 중 하나로, 데이터를 그룹으로 나누어 분석할 때 생길 수 있는 미묘한 함정을 말한다.
- 심슨의 역설은 통계적 결과를 해석할 때 전체 상황을 고려하는 것이 왜 중요한지를 말해준다.
- 간단한 예시로, 대학 입학에서 심슨의 역설이 나타날 수 있다. 전체 지원자를 남자와 여자로 나누어 각 그룹의 합격률을 계산했을 때, 각각의 그룹에서는 여성이 더 높은 합격률을 가질 수 있다. 그러나 전체에서는 남성이 여성보다 높은 합격률을 보일 수 있다. (하단의 버클리 대학교 대학원의 예시 참고)
- 전체 데이터를 고려하지 않고 각 그룹의 특성만을 보면 잘못된 결론에 도달할 수 있다. 특히, 각 그룹의 규모가 크게 차이나거나 특정 요인이 그룹 간에 불균형하게 나타날 때 이런 역설이 나타날 수 있다.
- 각 그룹의 특성이나 규모에 따라 결과가 달라질 수 있으므로 단순히 각 그룹의 결과만을 보고 일반화하기보다는 전체 상황을 고려하는 것이 항상 중요하다. 이는 통계학적 분석에서 주의할 점을 강조하는 개념이다.
- 불확실성과 우연 현상을 다루는 확률은 논리적이고 결정론적이며 인과 관계가 뚜렷한 다른 수학 주제와 확연히 구별되는 특성을 지닌다. 그런 연유에서인지 확률에는 유난히 많은 패러독스(paradox, 참이라고도 거짓이라고도 말할 수 없는 모순된 관계)가 존재한다.
- 확률 및 통계와 관련된 유명한 패러독스 중의 하나가 ‘심슨의 패러독스(Simpson’s paradox)’이다. 심슨의 패러독스란 ‘부분’에서 성립한 대소 관계가 그 부분들을 종합한 ‘전체’에 대해서는 성립하지 않는 모순적인 경우를 말한다.
- 심슨의 패러독스는 1951년 이 현상을 설명한 에드워드 심슨(Edward H. Simpson)의 이름을 따서 만든 용어로, 부분을 전체로 합치면서 나타나는 패러독스이므로 ‘합병 패러독스(amalgamation paradox)’라고도 한다.
- 심슨의 패러독스는 1973년 미국 버클리대학교 대학원에 지원한 학생들의 성별 합격률을 통해 널리 알려지게 되었다. 버클리대학교 대학원에 지원한 남녀 학생들의 합격률을 전공별로 보면 대부분의 전공에서 여학생의 합격률이 남학생보다 높았지만 전체적인 합격률에서는 남학생이 훨씬 높아지는 현상이 나타나면서 이 패러독스가 주목받게 되었다. 만일 여학생은 경쟁이 치열하여 합격률이 낮은 과에 대거 지원하고 남학생은 경쟁이 덜하여 합격률이 높은 과에 다수 지원하면 이런 반전 현상이 나타날 수 있다. /박경미의 수학콘서트 플러스
RFM(Recency, Frequency, Monetary) 분석
- RFM은 고객 segmentation 및 고객 가치 평가에 사용되는 중요한 개념으로 다음에 설명할 세 가지 요소에 따라 기업이 고객에게 점수를 부여하여 분석하는 도구이다.
- RFM 분석을 통해 기업은 고객을 여러 그룹으로 나누어 각 그룹에 맞는 마케팅 전략을 수립하거나 가치 있는 고객을 파악하는 데 도움을 얻을 수 있다. 이를 통해 고객 경험을 개선하고 맞춤형 서비스를 제공하는 데 기여할 수 있다.
- Recency(최근성) : 최근에 고객이 언제 구매를 했는지를 나타낸다. 일반적으로 최근에 구매한 고객일수록 높은 점수를 받게 된다.
- Frequency(빈도) : 고객이 일정 기간 동안 얼마나 자주 구매를 했는지를 나타낸다. 자주 구매한 고객일수록 높은 점수를 받게 된다.
- Monetary(금액) : 고객이 총 얼마나 많은 금액을 지불했는지를 나타낸다. 높은 금액을 지불한 고객일수록 높은 점수를 받게 된다.
- 고객의 미래 구매 행위를 예측하는데 있어 가장 중요한 것이 과거 구매내용이라고 가정하는 시장분석기법이다. RFM은 최근의(Recency) 주문 혹은 구매 시점, 특정 기간 동안 얼마나 자주(Frequency) 구매하였는가, 구매의 규모는 얼마인가(Monetary Value)를 의미하며, 각 고객에 대한 R·F·M을 계산한 후 이를 바탕으로 고객군을 정의한 뒤 각 고객군의 응답 확률과 메일 발송 비용을 고려해 이익을 주는 고객군에게만 메일을 발송하는 것이다. /매일경제