여러 표본 집단의 차이 연구
조사/연구 진행 시 여러 표본 집단의 차이를 비교한 필요가 있음.
주로 표본 평균의 차이를 비교하고자 함.
가령, 음식 A, B가 몸무게에 어떤 영향을 주는지 확인하기 위한 실험 방법은?
구성원들 간 차이가 없는 표본 집단을 그룹 1 (대조군), 그룹 2 (음식A) 그룹 3 (음식B)로 나누고, 몸무게 평균값을 비교함.
그런데 각 표본집단의 오차가 존재함.
F-value의 의미: 차이 / 불확실도
통계적으로 비교할 때에는 세 표본 그룹의 평균값 차이를 계산하면서, 동시에 표본 그룹의 평균값들은 오차를 수반한다는 사실을 함께 염두해야 함.
-> 표본 평균 차이의 통계적 지표: 차이 / 불확실도
(즉, F-value는 본질적으로 t-value와 완전히 같은 의미를 가짐)
하지만 보통 두 개 이상의 그룹 간 차이를 보기 때문에, 그룹 간 차이와 불확실도를 '분산'으로 약간 변형해 사용해야 함.
세 표본 집단의 그룹 간 차이
그룹 간 차이 / 불확실도 (랜덤 변동)
그룹 간 차이: 각 표본 집단 평균의 분산 (=표준 오차)
그룹 내 차이: 각 표본 집단 분산의 평균
수학적으로 F-value의 정의
충분히 큰 F-value는 어떻게 정해지는가?
ANOVA 분석: 그룹 1, 2, 3의 F-value 추출, 기준이 되는 값보다 크다면, 최소 한 그룹이 다른 모집단으로부터 나왔다.
검정 통계량 중 하나인 F-value는 표본 통계량을 2차 가공한 것임.
따라서, 표본 통계량의 분포를 확인한 것처럼 모집단에서 세 개의 표본 집단을 선정하고 F-value를 계산해볼 수 있다.
-> 기준이 되는 F-value는 무엇인가?
F-value는 생각보다 높게 나오지 않음. F값이 크려면 그룹 간 차이가 크거나 그룹 내 차이가 작아야 함.
표본집단들이 하나의 모집단에서 나왔다고 가정했을 때
이런 큰 F-value가 나왔을 확률은 매우 낮으므로,
이 표본집단들이 하나의 모집단에서 나왔을 것이라는 가정이 맞을 확률 또한 매우 낮다고 말할 수 있다.
실제로는 모집단의 수가 150개이고, n=10인 표본 집단 세 개를 뽑을 수 있는 경우의 수는 150C30이다.
이처럼 수많은 경우에 대한 표본 추출은 불가능하다. 수학적으로 F-value들의 분포에 대해 공식화한 것이 F-분포
-> 충분히 큰 F-value는 F-분포 상에서 결정되고, F-분포의 대략적인 형태는 모집단에서 여러 표본집단을 추출하여 계산하는 과정을 거쳐 확인해볼 수 있다.
'Computer > R' 카테고리의 다른 글
[확률과 통계] t-value의 의미와 스튜던트의 t-test (0) | 2021.08.26 |
---|---|
[확률과 통계] 표본, 표준 오차 (0) | 2021.08.26 |
[확률과 통계] 베이즈 정리 (0) | 2021.08.26 |
댓글