🔎아티클 스터디: 신뢰할 수 있는 실험 분석을 위해 데이터 퀄리티 챙기기

2024. 10. 10. 00:05학습/팀스터디

 

01 오늘의 아티클


 

신뢰할 수 있는 실험 분석을 위해 데이터 퀄리티 챙기기

A/B 테스트와 같은 제품 실험을 자주 실행하는 조직일수록, 실험 분석 결과에 따라 다음 액션이 빠르게 결…

playinpap.github.io

 

02 아티클 정보 요약


A/B 테스트 결과는 완전하고 정확한 데이터를 기반으로 하는 경우에만 신뢰할 수 있고 실행 가능하다.

 

데이터 퀄리티를 높이기 위한 체크리스트를 살펴보자면 일반적으로 Completeness(완전성), Uniqueness(고유성), Timeliness(적시성), Validity(유효성), Integrity(무결성), Consistency(일관성), Relevance(관련성), Compliance(규정 준수) 및 Retention(보존)이 포함된다.

 

이를 바탕으로 데이터 퀄리티를 측정하기 위한 추가 메트릭을 설정할 수 있다.

 

1. Missing rates (결측률)

- 컬럼별 누락된 값의 비율, dummy value 로 결측치를 나타내는 특정 패턴이 있는지 확인

2. Invalid values (부적절한 값)

- 값이 적절한 형식을 따르고 있는지, 해당 컬럼에 맞는 값인지 확인

3. Join rates (조인 선택도)

- 다른 데이터 소스에서 데이터를 가져와 합칠 경우 join rate 이 충분히 높은지 확인

4. Uniqueness (고유성)

- 중복 항목이 있는지, 동일한 signal에 대한 열이 두 개 이상 있는지 확인

5. Data delays (데이터 지연)

- 계산 시 사용할 수 있는 데이터의 비율이 어떻게 되는지, 이벤트가 기록된 시점과 데이터를 분석에 사용할 수 있는 시점 사이에 시간이 얼마나 걸리는지 확인

 

03 인사이트


데이터분석 관련 자격증 시험을 준비하면서 배웠던 내용에 더해 추가 메트릭 항목을 배울 수 있었고, 특히 데이터 지연 항목에 대해 이벤트가 기록된 시점과 분석에 사용하는 시점 사이의 시간을 체크해 의사 결정 지연 시간을 줄이는 것을 유의해야 한다는 것을 새롭게 알 수 있었다.