Chapter 13. Multiple Testing
- 추론을 수행하는 데 핵심적인 가설 검증
- 특정 귀무가설을 검증하거나
- 검증을 수행하고 p-value를 얻는 방법
- 가설검정 결과를 정량화하는데 사용되는 p값의 고전적인 통계기법
- 2020년도 기준, 최근 사회과학 연구계에서 p값은 일부 사회과학 학술지에서 p값의 사용을 전면 금지할 정도로 광범위한 논평의 주제가 되었다. 이에 p값이 적절하게 이해되고 적용될 때 데이터에서 추론적 결론을 도출하는 강력한 도구를 제공한다고 간단히 논평
13.1 가설 검정의 빠른 검토
; 귀무가설, p-value, 검정 통계량 및 기타 가설 검증의 주요 아이디어
가설 검정은 다음과 같은 데이터에 대한 단순한 "예-아니오" 질문에 답하기 위한 엄격한 통계적 프레임워크를 제공합니다:
1. X1,...,Xp에 대한 Y의 선형 회귀에서 참 계수 βj는 0과 같습니까?
2. 대조군 실험용 쥐와 실험군 실험용 쥐의 예상 혈압에 차이가 있습니까?
13.1.1 가설의 검정
가설검정의 수행은 4단계로 진행된다.
STEP 1) 귀무 가설 및 대립 가설 정의
귀무가설(H0) : 새로운 내용이 없는, 일반적인 내용의 가설
대립가설(Ha) : 무언가 증명하고 싶은 새로운 내용의 가설
앞서 제기한 두가지 질문과 관련된 귀무가설은 다음과 같다.
1. X1,...,Xp에 대한 Y의 선형 회귀에서 참 계수 βj는 0입니다.
2. 대조군과 실험군에서 쥐의 예상 혈압은 차이가 없습니다.
일반적으로 대립 가설은 단순히 귀무 가설이 성립하지 않는다고 가정한다.
만약 귀무가설이 A와 B사이에 차이가 없다고 가정하면, 대립가설은 A와 B 사이에 차이가 있다고 가정한다.
1. X1,...,Xp에 대한 Y의 선형 회귀에서 참 계수 βj는 0이 아닙니다.
2. 대조군과 실험군에서 쥐의 예상 혈압은 차이가 있습니다.
→ H0는 기본상태로 취급되며, 우리는 H0를 기각하기 위해 데이터를 사용하는 것에 초점을 맞춘다.
만약 H0을 기각하면 Ha에 유리한 증거가 된다. 우리는 H0을 기각하는 것이 데이터에 대한 발견이라고 생각할 수 있다. 즉, H0이 성립하지 않는다는 것을 발견한 것이다! 반대로, H0을 기각하지 못하면 우리의 발견은 더 모호해진다. 우리는 표본 크기가 너무 작아서 H0을 기각하지 못했는지(이 경우 더 큰 품질의 데이터 세트에서 H0을 다시 테스트하면 기각으로 이어질 수 있음), 아니면 H0이 실제로 성립하기 때문에 H0을 기각하지 못했는지를 알 수 없다.
STEP 2) 검정통계량 구성
귀무가설에 대한 증거를 찾기위해 데이터가 H0와 일치하는 정도를 요약한 T검정 통계량을 계산해야 한다.
위 가설 중 2번째 예시로 설명하자면,
xt 1, ... , xt nt 를 실험군의 nt 실험쥐 혈압 측정값이라고 하고,
xc 1, ... , xc nc를 대조군의 nc 실험쥐 혈압 측정값이라고 할 때 µt = E(Xt), µc = E(Xc)라고 한다.
귀무가설 H0 : µt = µc를 검정하기 위해 T-statistic을 사용한다.
큰 T통계량(절댓값)의 값은 H0 : µ t = µ c에 대한 증거를 제공하므로 Ha : µ t ≠ µ c를 뒷받침하는 증거를 제공한다.
즉, 유의한 차이가 있다(Ha) 는 증거가 명확하다는 것이다.
STEP 3) p-value 계산
p-값은 H0가 사실이라는 가정하에 관측된 통계량과 같거나 관측된 통계량보다 더 극단적인 검정 통계량을 관측할 확률로 정의된다. 따라서 작은 p-값은 H0에 대한 증거를 제공한다.
( 여기서 극단적인 검정 통계량은 예상했던 통계량에서 확연하게 많이 벗어난 값을 말하는데, 이러한 경우에는 귀무가설을 기각한다. H0가 사실이지만 왜 기각하냐고? 그래서 이 경우가 제 1종 오류이다)
그림 13.1에서 보면 검정통계량에 대해 T = 2.33 이라고 가정한다. 13.1의 그래프는 N(0,1)을 따르는 것으로 나타난다.(= 표준정규분포?) N(0,1)분포의 대부분인 98%가 -2.33과 2.33사이에 있음을 알 수 있다. ( P(z>2.33) = 0.0099 )
따라서 T = 2.33에 해당하는 p-값은 0.02 이다.
가장 일반적으로 사용되는 검정 통계량은 표본 크기가 충분히 크고 다른 몇 가지 가정이 성립하는 경우 정규 분포, t-분포, χ2-분포 또는 F-분포와 같이 귀무가설 하에서 잘 알려진 통계량 분포를 따른다.
특히 p-값은 H0가 참일 확률, 즉 귀무가설이 성립할 확률이라고 때때로 말한다. 그러나 이것은 옳지 않다! p-값에 대한 유일한 올바른 해석은 "H0가 성립하는 경우, 이 실험을 여러 번 반복할 때 검정 통계량의 극단값이 나타날 것으로 예상되는 시간의 비율"이다. p-값은 임의적이고 해석하기 어려운 척도로 측정된 우리의 검정 통계량(T-statisic 통계량)을 더 쉽게 해석할 수 있는 0과 1 사이의 숫자로 나타낸다. (T값의 척도는 표준정규분포를 따르지 않는 이상 가늠하기 어렵다)
STEP 4) 귀무가설 기각 여부 결정
H0에 해당하는 p-값을 계산한 후에는 H0를 기각할 지 여부를 결정해야 한다. p값이 작으면 검정통계량의 큰 값이 H0에서 발생할 가능성이 거의 없으며, H0에 대한 증거를 제공한다. p-값이 충분히 작으면, 우리는 H0을 기각한다. H0를 기각하기에 충분히 작은 값은 얼마일까? 일부 필드에서는 p 값이 0.05보다 작으면 H0을 기각하는 것이 일반적이다.
13.1.2 1종 오류와 2종 오류 (가설 검정에서 발생할 수 있는 다양한 유형의 실수 또는 오류)
만약 H0이 실제로 참일 때, H0을 잘못 기각하면 유형 I 오류를 범한 것이다. 유형 I 오류율은 H0을 잘못 기각할 확률로 정의된다.
또는 H0이 실제로 거짓일 때 H0을 기각하지 않으면 유형 II 오류를 범한 것이다. 가설 검정의 검정력은 Ha가 H0을 올바르게 기각할 확률을 감안할 때 유형 II 오류를 범할 확률로 정의된다. (?)
이성적으로 우리는 두가지 오류율이 모두 작기를 원한다. 하지만 실제로는 그것을 달성하기 어렵다.
(1) 일반적으로 H0이 성립하지 않는다고 확신하는 경우에만 H0을 기각함으로써 유형 I 오류를 작게 만들 수 있지만 이것은 유형 II 오류의 증가를 초래한다.
(2) 또는 H0이 성립하지 않는다는 약간의 증거도 있는 경우에 H0을 기각함으로써 유형 II 오류를 작게 만들 수 있지만 이것은 유형 I 오류를 크게 만듭니다.
실제로 우리는 일반적으로 유형 I 오류를 유형 II 오류보다 더 "심각한" 것으로 보는데, 이는 전자(1)가 올바르지 않은 과학적 발견을 선언하는 것을 포함하기 때문입니다.
따라서 가설 검정을 수행할 때 일반적으로 유형 II 오류를 작게(또는 동등하게, 검정력을 크게) 만들려고 하면서, 낮은 유형 I 오류율(예: 최대 α = 0.05)을 요구한다. H0을 기각하게 만드는 p-값과 유형 I 오류율 사이에는 직접적인 대응 관계가 있는 것으로 밝혀졌다. p-값이 α보다 작을 때만 H0을 기각함으로써 유형 I 오류율이 α(유의수)보다 작거나 같도록 보장한다.
13.2
; 다중 검정의 과제
이제 우리가 m개의 귀무가설인 H01,...,H0m을 검정하려고 한다고 가정해 보자
어떤 귀무가설도 기각할 확률은 1%( 유의수준이 0.01일 때 )이므로 약 0.01x m개의 귀무가설을 거짓으로 기각할 것으로 예상한다.
예를 들어 m= 10,000이라고 가정할 때 우리는 100개의 가설을 잘못 기각할 수 있다. 이는 1종 오류의 예상 발생 횟수를 의미한다. 즉, 유의수준( α )은 1종 오류의 확률을 나타낸다. 따라서 유의수준이 작을수록 1종 오류를 범할 확률이 줄어들게 된다.
그러나 다중검정에서는 여러 개의 가설을 동시에 검정하게 되는데, 이 때문에 1종 오류의 확률이 증가하게 된다. 즉, 여러 개의 가설을 검정할 경우, 적어도 하나의 가설을 잘못 기각할 확률이 상당히 높아진다.
많은 수의 귀무 가설을 검정할 때, 우리는 우연히 매우 작은 p-값을 얻게 될 수 있다. 만약 우리가 매우 많은 수의 검정을 수행했다는 사실을 고려하지 않고 각 귀무 가설을 기각할지 여부를 결정한다면, 우리는 결국 많은 수의 참인 귀무 가설을 기각하게 될 것이다. 즉, 많은 수의 유형 I 오류를 범하게 될 것이다.
문제의 핵심은 다음과 같다. p-값이 α보다 작으면 귀무 가설을 기각하는 것은 α 수준에서 그 귀무 가설을 거짓으로 기각할 확률을 통제한다. 그러나 만약 우리가 m개의 귀무 가설에 대해 이렇게 한다면, m개의 귀무 가설 중 적어도 하나를 거짓으로 기각할 확률은 ( α 수준에서 기각하는 것보다 ) 훨씬 더 높다!
다중 검정(multiple testing)은 여러 개의 검정을 동시에 수행하는 경우를 말한다. 이러한 경우에 단일 검정을 수행할 때와 똑같은 방식으로 검정을 진행하게 되면 심각한 문제가 발생한다. 예를 들어 처리가 3개인 CRD진행 후, 실제 각각 처리그룹들의 모평균이 어떻게 차이가 있는지 궁금하여 다중 비교(multiple comparison)를 수행하는 상황을 생각해보자. 단일 가설 검정에서 하던대로 유의수준을 0.05로 놓고 two-sample t-test를 진행하자. 이 경우 귀무가설이 참일 때, 귀무가설을 기각하지 않을 확률은 (1-0.05) = 95%가 되며, 그에 따라 세 가설 모두 동시에 올바르게 판단할 확률은 (1-0.05)^3 = 85.7%가 된다. 이를 뒤집어 말하면, 잘못된 판단을 내릴 확률은 결국 (1-0.857) = 14.3%씩이나 된다. 결국, 유의수준 5%로 여러 개의 가설검정을 수행하면, a값이 매우 커지는 문제가 발생한다. 즉, 다수의 검정을 동시에 수행할 경우 전체오류율a를 유지하는 방법이 필요하다. 이러한 방법론을 통칭하여 FWER을 조절하는 방법이라고 하며, 대표적으로는 본페로니 교정(bonferroni correction)을 예로 들 수 있다.
참고 : https://be-favorite.tistory.com/20
'선형대수학' 카테고리의 다른 글
[적분] 몬테 카를로 적분 (0) | 2024.12.09 |
---|---|
ISLP Chapter 13 Multiple Testing 2 (1) | 2024.04.18 |
[선형대수] 0819 (0) | 2023.08.19 |
[선형대수학] 5주차 0812 (수정중) (0) | 2023.08.12 |
[선형대수학] 4주차 0805 (0) | 2023.08.07 |