본문 바로가기
Computer/R

[확률과 통계] f-value와 ANOVA의 의미

by injeolmialmond 2021. 8. 27.

https://youtu.be/VZ6WPnI82Z8

 

여러 표본 집단의 차이 연구

조사/연구 진행 시 여러 표본 집단의 차이를 비교한 필요가 있음.

주로 표본 평균의 차이를 비교하고자 함.

 

가령, 음식 A, B가 몸무게에 어떤 영향을 주는지 확인하기 위한 실험 방법은?

구성원들 간 차이가 없는 표본 집단을 그룹 1 (대조군), 그룹 2 (음식A) 그룹 3 (음식B)로 나누고, 몸무게 평균값을 비교함.

그런데 각 표본집단의 오차가 존재함. 

 

 

F-value의 의미: 차이 / 불확실도

통계적으로 비교할 때에는 세 표본 그룹의 평균값 차이를 계산하면서, 동시에 표본 그룹의 평균값들은 오차를 수반한다는 사실을 함께 염두해야 함.

 

-> 표본 평균 차이의 통계적 지표: 차이 / 불확실도

(즉, F-value는 본질적으로 t-value와 완전히 같은 의미를 가짐)

 

하지만 보통 두 개 이상의 그룹 간 차이를 보기 때문에, 그룹 간 차이와 불확실도를 '분산'으로 약간 변형해 사용해야 함.

 

 

세 표본 집단의 그룹 간 차이

그룹 간 차이 / 불확실도 (랜덤 변동)

 

그룹 간 차이: 각 표본 집단 평균의 분산 (=표준 오차)

그룹 내 차이: 각 표본 집단 분산의 평균

 

 

수학적으로 F-value의 정의

F-value의 의미와 분산분석 - 공돌이의 수학정리노트 (angeloyeo.github.io)

 

충분히 큰 F-value는 어떻게 정해지는가?

ANOVA 분석: 그룹 1, 2, 3의 F-value 추출, 기준이 되는 값보다 크다면, 최소 한 그룹이 다른 모집단으로부터 나왔다.

 

검정 통계량 중 하나인 F-value는 표본 통계량을 2차 가공한 것임. 

따라서, 표본 통계량의 분포를 확인한 것처럼 모집단에서 세 개의 표본 집단을 선정하고 F-value를 계산해볼 수 있다.

 

-> 기준이 되는 F-value는 무엇인가?

F-value의 의미와 분산분석 - 공돌이의 수학정리노트 (angeloyeo.github.io)

 

F-value는 생각보다 높게 나오지 않음. F값이 크려면 그룹 간 차이가 크거나 그룹 내 차이가 작아야 함.

 

표본집단들이 하나의 모집단에서 나왔다고 가정했을 때

이런 큰 F-value가 나왔을 확률은 매우 낮으므로,

이 표본집단들이 하나의 모집단에서 나왔을 것이라는 가정이 맞을 확률 또한 매우 낮다고 말할 수 있다.

 

실제로는 모집단의 수가 150개이고, n=10인 표본 집단 세 개를 뽑을 수 있는 경우의 수는 150C30이다.

이처럼 수많은 경우에 대한 표본 추출은 불가능하다. 수학적으로 F-value들의 분포에 대해 공식화한 것이 F-분포

 

-> 충분히 큰 F-value는 F-분포 상에서 결정되고, F-분포의 대략적인 형태는 모집단에서 여러 표본집단을 추출하여 계산하는 과정을 거쳐 확인해볼 수 있다. 

 

 

댓글