2024. 6. 24. 14:21ㆍ학습/팀스터디
01 오늘의 아티클(주제)
(6) DSforS : Chap 3 통계적 실험과 유의성 검정 3.4 ~ 3.8.
1. 목차3.4. 통계적 유의성과 p값3.5. t검정3.6. 다중검정3.7. 자유도3.8. 분산분석 2. 본문3.4. 1종오류와 2종오류1종 오류: 귀무가설이 참인데도 불구하고 귀무가설을 채택하지 않는 오류2종 오류:
snowgot.tistory.com
02 아티클 정보 정리
▶ 1종 오류와 2종 오류: 이전에 언급했다시피 귀무 가설은 기존의 것, 대립 가설은 새로운 가설을 의미한다.
1. 1종 오류: 귀무 가설이 참임에도 불구하고, 대립 가설을 채택하는 오류 (확률 = α)
2. 2종 오류: 대립 가설이 참임에도 불구하고, 귀무 가설을 채택하는 오류 (확률 = β)
달리 말하면 아래와도 같다.
1. 1종 오류: 귀무 가설이 참임에도 불구하고, 귀무 가설이 기각된 오류(α)
→ 귀무 가설이 참일 때, 올바르게 채택할 확률은? 1-α
2. 2종 오류: 귀무 가설이 거짓임에도 불구하고, 귀무 가설이 채택된 오류(β)
→ 귀무 가설이 거짓일 때, 올바르게 기각할 확률은? 1-β
이중에서 1종 오류를 엄격하게 관리하는 게 일반적이라고 한다. 기존에 판매되던 혈압약이 있는데 사실 효과가 없었다거나, 다른 문제가 있었다면 국민의 건강에 큰 위협이 되는 문제이고 새로 판매하려고 준비 중인데 문제가 생긴 거랑은 사고 스케일이 다르기 때문이다.
1. 그래서 유의 수준(α)을 관리 지표로 두고 상대적으로 엄격히 관리한다.
2. 사실 1/2종은 trade off 관계 이기에 둘 다 낮게 관리하기 어렵다.
▶ 여기에서 검정력이라는 용어가 나온다. 대립가설이 참일 때, 채택할 확률을 의미한다.
→ 즉, 귀무 가설이 거짓일 때 옳은 결정을 할 확률(1-β)이 수식에 쓰인다.
→ 검정적은 표본의 크기를 얼마나 수집해야 하는지 결정해준다.
▶ 우리는 검정력과 유의 수준을 바탕으로 최소한의 필요한 표본의 크기를 구할 수 있다. 이게 뭘까?
1. 유의 수준(α, Significance Level): 귀무가설이 참일 때, 귀무가설을 기각할 확률. 보통 0.05나 0.01 등의 값을 사용한다. 예를 들어, 유의수준이 0.05라면, 5%의 확률로 귀무가설이 참인데도 이를 기각하게 됨을 말한다. 이는 귀무가설이 참일 때 이를 잘못 기각할 확률을 5% 또는 1%로 제한한다는 의미이다.
2. 검정력(Power, 1 - β): 대립가설이 참일 때, 귀무가설을 기각할 확률. 검정력이 높을수록 실제 효과를 발견할 확률이 높아진다. 일반적으로 0.80 이상의 값을 목표로 한다. 예를 들어, 검정력이 0.80이라면, 80%의 확률로 대립가설이 참일 때 이를 올바르게 기각할 수 있다는 의미이다. = 귀무 가설이 거짓일 때, 올바르게 기각할 확률.
3. 표본의 크기(Sample Size): 표본 크기는 통계 분석에서 모집단의 특성을 추정하기 위해 선택한 표본의 크기이다. 표본 크기는 검정력과 유의수준에 따라 달라진다. 즉, 원하는 검정력과 유의수준을 충족시키기 위해 필요한 표본의 크기를 결정할 수 있다는 말이다.
▶ 표본 크기는 검정력, 유의수준, 효과 크기(effect size), 모집단의 변동성도 고려하여 결정된다.
1. 효과 크기(Effect Size): 검정하려는 두 집단 간의 차이의 크기이다. (예를 들어, 클릭률의) 차이가 클수록 작은 표본 크기로도 효과를 검출할 수 있다.
2. 변동성(Variability): 모집단의 표준편차로 측정된다. 변동성이 작을수록 작은 표본 크기로도 효과를 검출할 수 있다.
▶ 표본 크기를 계산할 때 고려하는 요소와 표본 크기의 관계성
1. 유의 수준(α)이 낮을수록 (더 엄격할수록) 표본 크기가 커져야 한다.
2. 검정력(1 - β)이 높을수록 표본 크기가 커져야 한다.
3. 효과 크기가 작을수록 표본 크기가 커져야 한다.
4. 모집단의 표준편차가 클수록 (변동성이 클수록) 표본의 크기가 커져야 한다.
▶ 표본 크기를 결정하는 과정은 보통 크게 다음과 같은 절차를 따른다.
1. 유의수준 설정: 연구자가 설정한 유의수준(α)을 결정한다. 예를 들어, 0.05로 설정한다.
2. 검정력 설정: 연구자가 원하는 검정력(1 - β)을 설정한다. 예를 들어, 0.80으로 설정한다.
3. 효과 크기 설정: 연구자가 관심 있는 효과 크기를 설정한다. 이는 연구의 맥락에 따라 달라질 수 있다.
4. 표본 크기 계산: 위의 세 가지를 바탕으로 표본 크기를 계산한다. 이는 보통 통계 소프트웨어나 표본 크기 계산기를 통해 수행된다.
▶ 표본의 크기 계산 공식은 아래와 같다.
- 위의 표본 크기 수식에서 분모를 Z로 넘기면 분산 더한 쪽은 독립된다.
- 여기에 계산한 수치를 대입하면 아래와 같다고 한다. 분모에 2는 어디서 왔을까?
1. 효과 크기(d)는 단순히 두 비율 간의 차이이다. d=p2−p1
2. 효과 크기(h)는 Cohen's h로, 표준화된 비율 차이이다.
3. 표본 크기 공식은 두 비율 간의 차이를 탐지하기 위해 필요한 표본 크기를 계산한다.
4. 분모 2는 아래와 같은 공식에서 나온 것 같다.

1. Z_alpha = norm.ppf(1 - alpha / 2): 표준 정규분포에서 유의수준 alpha에 해당하는 Z값을 계산한다. 여기서 ppf 함수는 누적분포함수(CDF)의 역함수이다. (1 - alpha / 2)는 양측 검정에서 양쪽 꼬리를 고려한 값을 의미한다.
2. Z_beta = norm.ppf(power): 표준 정규분포에서 검정력(power)에 해당하는 Z값을 계산한다. 검정력의 하위 백분위 수.
3. p1 * (1 - p1) + p2 * (1 - p2): 두 그룹의 분산을 더한 값. 이는 이항 분포의 분산 공식에서 유도된 것이다.
▶ Z 값의 사용: 개념 설명
- Z 값은 통계에서 표준 정규분포를 기준으로 특정 확률에 대응하는 값을 의미한다.
- Z 값은 정규 분포에서의 위치를 나타내는 값으로, 평균이 0이고 표준편차가 1인 표준 정규분포에서의 위치를 나타낸다.
- Z 값은 원래의 데이터가 얼마나 평균에서 떨어져 있는지를 표준편차 단위로 표현한 값이다.
- 예를 들어, Z 값이 2라면, 해당 값이 평균보다 표준편차의 2배만큼 위에 있다는 의미이다.
주로 다음과 같은 두 가지 경우에 많이 사용한다.
1. 유의수준 (Significance Level): 가설 검정에서 귀무가설을 기각할지 말지 결정할 때 사용된다. 예를 들어, 유의수준 0.05 (5%)에 해당하는 Z 값은 약 1.96이다. 이는 표준 정규분포에서 양쪽 꼬리의 합이 5%인 값을 의미한다.
2. 검정력 (Power): 대립가설이 참일 때 귀무가설을 기각할 확률을 결정할 때 사용된다. 예를 들어, 검정력 0.80 (80%)에 해당하는 Z 값은 약 0.84이다.
▶ Z 값을 계산: 두 가지 주요 함수의 사용
1. 누적분포함수(CDF)의 역함수
→ ppf 함수는 누적분포함수의 역함수로, 특정 확률에 해당하는 Z 값을 계산한다.
→ 예: norm.ppf(0.975)는 0.975의 누적 확률에 해당하는 Z 값인 약 1.96을 반환한다.
2. 확률밀도함수(PDF)
→ pdf 함수는 특정 Z 값에서의 확률밀도를 계산한다.
→ 예: norm.pdf(1.96)는 Z 값 1.96에서의 확률밀도를 반환한다.
결론: norm.ppf 함수는 주어진 확률에 해당하는 Z 값을 반환한다. 이는 표준 정규분포에서 누적 확률이 주어진 값이 되는 Z 값을 찾는 함수이다.
03 인사이트 = control(조절)
- 검정력과 유의수준을 기반으로 표본 크기를 결정하는 것은 통계적으로 유의미한 결과를 얻기 위해 필수적이다. 이를 통해 우리는 귀무가설이 참일 때 잘못 기각할 확률(유의수준)과 귀무가설이 거짓일 때 올바르게 기각할 확률(검정력)을 조절할 수 있게 된다.
- 필요한 표본 크기를 올바르게 설정함으로써, 우리는 실험이나 연구에서 보다 신뢰할 수 있는 결과를 얻을 수 있다.
- 다른 모듈을 사용해서 같은 값을 얻을 수도 있다.
- 두 코드가 같은 결과를 출력하는 이유는 결국 동일한 통계적 원리에 기반하여 표본 크기를 계산하고 있기 때문이다. 두 코드 모두 비율(클릭률)의 차이를 기반으로 표본 크기를 계산하며, 동일한 통계적 원리를 따르고 있다. 그러나 접근 방식과 사용된 함수가 다르다.
1. 첫 번째 방법 (scipy.stats.norm를 사용한 계산)
- 비율의 차이에 대한 z-검정을 사용하여 표본 크기를 직접 계산한다.
- 이 방법은 비율의 차이를 기반으로 Z 값을 계산하고, 이를 통해 필요한 표본 크기를 구한다.
- 직접적으로 두 그룹의 비율 차이를 고려하여 계산한다.
2. 두 번째 방법 (statsmodels.stats.power.TTestIndPower를 사용한 계산)
- 독립 표본 t-검정을 사용하여 표본 크기를 계산한다.
- 여기서는 효과 크기(effect size)를 비율의 차이를 기반으로 계산하고, 이를 통해 표본 크기를 구한다.
- 효과 크기를 계산하는 과정에서 비율 차이를 표준화하여 사용한다.
'학습 > 팀스터디' 카테고리의 다른 글
🔎아티클 스터디: 의사소통이 즐거운 개발자의 3가지 능력 (0) | 2024.06.26 |
---|---|
🔎아티클 스터디: 눈과 귀가 달린 LLM, 멀티모달 AI (0) | 2024.06.25 |
🔎아티클 스터디: A/B테스트, 가설검정(유의성 검정) (0) | 2024.06.21 |
🔎아티클 스터디: 다양한 분포 개념 (1) | 2024.06.20 |
🔎아티클 스터디: 표본샘플링, 신뢰구간, 분포 등 (0) | 2024.06.19 |