🔎아티클 스터디: 가중평균, 조화평균, 재현율과 정밀도
2024. 6. 14. 13:36ㆍ학습/팀스터디
1. 오늘의 아티클(주제)
(1) DSforS : Chap 1 탐색적 데이터분석 1.1 ~ 1.4
데이터 과학통계 1.1. ~ 1.4.에서는 탐색적 데이터분석의 사례를 소개한다. 1.1 정형화된 데이터의 요소1.2 테이블 데이터1.3 위치 추정1.4. 변이추정1. 용어 정리데이터과학을 처음 마주할 때 가장
snowgot.tistory.com
2. 아티클 정보 요약
1) 평균에는 산술평균, 기하평균, 조화평균이 있다. 머신러닝 분류예측 모델을 평가하기 위해 F1-score를 배울 때 조화평균이 등장한다. (F1-score는 1. 실제 긍정사례 중 모델이 긍정이라고 한 비율과 2. 모델이 긍정으로 예측한 것 중 실제 긍정인 비율 두 가지 지표를 고려한다. 전자는 재현율, 후자는 정밀도이다. 언제봐도 헷갈리지 않도록 정리한다.)
(1) 기억에 도움이 되는 팁
a. 재현율 = 찾는 능력: 재현율은 실제 긍정 사례를 얼마나 잘 "재현"하느냐에 대한 척도이다. 즉, 놓치지 않고 잘 찾아내는 능력이다. (실긍모긍, "실제를 재현하다.")
b. 정밀도 = 정확도: 정밀도는 모델이 긍정으로 예측한 것들이 얼마나 "정확"한지를 나타낸다. 즉, 긍정 예측의 정확성을 의미합니다. (모긍실긍, "결과물의 정확성", "정"확히 맞춘다.)
(2) 예시를 통한 외우기
a. 재현율(Recall): 예를 들어, 병원에서 암 환자를 진단할 때 재현율이 높으면 암 환자를 놓치지 않고 잘 찾아내는 것에 집중한. "재현"이라는 단어에서 '다시 찾아낸다'는 이미지를 떠올린다.
b. 정밀도(Precision): 예를 들어, 이메일 스팸 필터(yes or no 분류 예측)에서 정밀도가 높으면 (기계가 예측해서) 스팸으로 분류된 이메일이 실제로 스팸일 확률이 높다. "정밀"이라는 단어에서 '정확히 맞춘다'는 이미지를 떠올린다.
그렇다면, 실제로 스팸인 메일 중에서 이메일 스팸 필터가 스팸이라고 예측한 비율은 뭘까? 재현율이다. 실제를 얼마나 잘 재현했는지 알려주니까.
2) 그 외에도 가중평균을 배웠다. A반 남학생 평균 수학 점수가 30점, A반 여학생 수학 평균 점수가 50점일 때 A반의 평균 점수를 40점이라고 할 수 있을까?에 대한 예시가 나온다. 이게 위에서 언급된 산술평균의 함정이다. 평균이 40이라면 남학생과 여학생의 수가 1:1 비율로 존재한다는 전제가 있어야 한다. 따라서 이 경우에는 가중평균을 사용할 필요가 있다고 한다.
점수마다 점수*학생의 비율을 곱하고 전체 학생의 수로 나누면 가중평균 값이 나온다고 한다.
3. 인사이트
1. a과 b 두 값의 조화평균을 구해본다.
2. 분모와 분자를 1/n으로 나눈 후, 2ab/a+b가 어떻게 나오는지 계산을 해봤다.
'학습 > 팀스터디' 카테고리의 다른 글
🔎아티클 스터디: 고객 여정에 따른 ‘AARRR’ 마케팅 용어 알아보기 (0) | 2024.06.18 |
---|---|
🔎아티클 스터디: 커널밀도추정, 중심극한정리 (0) | 2024.06.17 |
🔎아티클 스터디: ③ A/A 테스트와 무작위화 (0) | 2024.06.13 |
🔎아티클 스터디: ② A/A 테스트와 실험 전 편향 (0) | 2024.06.12 |
🔎아티클 스터디: AI가 대체할 수 있는 일과 없는 일 (0) | 2024.06.11 |