데이터 전처리와 데이터 마트의 차이

2024. 5. 1. 08:49기타/Misc.

 

01 데이터 마트와 데이터 전처리의 차이는?


1. 데이터 마트(Data Mart): 데이터 마트는 특정 주제나 부서의 필요에 초점을 맞춘 데이터의 집합이다. 이는 데이터 웨어하우스에서 파생되는 개념인데, 데이터 웨어하우스가 조직 전체의 데이터를 포괄한다면, 데이터 마트는 그 중 특정 부서나 사용자 그룹이 자주 사용하는 정보만을 추출해 구성된 소규모의 데이터 저장소다. 예를 들어, 마케팅 부서만을 위한 데이터 마트를 구성할 수 있으며, 이는 마케팅과 관련된 데이터만을 포함하게 된다. 데이터 마트는 데이터 분석의 효율성을 높이고, 필요한 정보에 더 빠르게 접근할 수 있게 돕는다는 장점이 있다.

 

2. 데이터 전처리(Data Preprocessing): 데이터 전처리는 분석이나 머신 러닝 모델 훈련 전에 데이터를 정제하고 구조화하는 과정을 말한다. 이 과정에는 누락된 값 처리, 이상치 감지 및 수정, 데이터 정규화, 인코딩(범주형 변수를 수치형 변수로 변환하는 과정)와 같은 작업이 포함될 수 있다. 데이터 전처리의 목적은 데이터 분석이나 모델 학습에 더 적합한 형태로 데이터를 조정하여 데이터의 질을 향상시키는 것이다.

 

3. 차이점 요약:

1) 목적과 사용되는 단계: 데이터 마트는 분석을 위한 특정 데이터 집합을 구성하는 것에 초점을 맞추고, 데이터 전처리는 이러한 데이터 집합이 분석에 사용될 수 있도록 정제하고 준비하는 과정이다.

2) 작업의 성격: 데이터 마트는 데이터를 조직화하는 구조적 작업에 속하며, 데이터 전처리는 데이터의 질과 형태를 개선하는 분석적 작업이다.

3) 적용 시점: 데이터 마트는 분석의 효율성을 높이기 위해 데이터 웨어하우스(적재)로부터 파생되어 구성되며, 데이터 전처리는 분석이나 모델링을 시작하기 전에 데이터를 정제하는 단계에서 이루어진다.

 

02 예시를 들어 설명한다면?


1. 데이터 마트(Data Mart) 예시: 회사에는 다양한 부서가 있고, 각 부서는 자신들의 업무에 필요한 특정한 데이터에 관심을 가진다. 예를 들어, 마케팅 부서는 고객의 구매 패턴, 광고 캠페인의 효과 등에 관한 데이터를 분석하는데 관심이 있을 것이다. 반면, 인사 부서는 직원들의 근무 성적, 근무 시간, 휴가 사용 등에 관한 데이터를 분석에 사용할 것이다. 이 때, 회사의 데이터 웨어하우스에서 마케팅 부서만을 위한 데이터 마트를 생성할 수 있다. 이 데이터 마트는 고객 정보, 판매 기록, 광고 데이터 등 마케팅 부서에서 필요로 하는 정보만을 포함한다. 마케팅 부서는 이제 자신들의 목적에 맞춘 데이터를 더 빠르고 효율적으로 사용할 수 있다.

 

2. 데이터 전처리(Data Preprocessing) 예시: 데이터 전처리는 분석이나 모델 학습을 시작하기 전에 데이터를 정제하고 준비하는 과정이다. 예를 들어, 온라인 쇼핑몰의 고객 구매 이력 데이터를 분석한다고 가정한다. 이 데이터에는 결측치(누락된 정보), 이상치(평균적인 범위를 벗어난 데이터), 잘못 입력된 정보 등이 포함될 수 있다.

 

1) 결측치 처리: 기록이 누락된 고객의 나이 정보가 있다면, 평균값이나 중앙값으로 대체할 수 있다.

2) 이상치 탐지 및 처리: 만약 어떤 고객의 구매 금액이 평균보다 훨씬 높아 보이는 경우, 이를 검사하여 데이터 입력 오류인지, 실제로 큰 금액을 지출한 고객인지 파악해 조치를 취한다.

3) 정규화: 성별을 나타내는 범주형 데이터가 남성/여성으로 되어 있다면, 이를 0과 1의 숫자로 변환하여 분석이나 모델 학습에 사용할 수 있게 만든다.

 

위의 과정들을 통해 데이터의 질을 향상시키고, 분석이나 모델 링에 더 적합한 형태로 만드는 것이 데이터 전처리의 역할이다. 이처럼, 데이터 마트는 분석에 사용될 특정한 주제나 부서를 위한 데이터 집합을 구축하는 것이고, 데이터 전처리는 분석이나 모델링을 시작하기 전에 데이터를 정제하고 준비하는 과정이다.

 

💡 데이터 마트는 소규모 집합이다!