검정 통계량이란?
모집단, 모수, 표본, 표본 통계량에 대한 설명은 지난 영상에서 다루었음.
모집단은 관심을 가진 집단 전체, 모수는 이런 모집단의 특성을 나타내는 지표.
모수를 알고 싶으나 알기 힘들기 때문에 표본을 추출함. 무작위 추출이 가장 중요. 표본 추출해 얻은 것이 표본 통계량.
표본 통계량은 추정치이기 때문에 추정 오차가 생김. 표본 통계량의 표준 편차 = '표준 오차'
검정 통계량: '통계적으로 비교 분석한다'라고 할 때 사용하는 t, z, F, x^2등을 통칭.
통계적 가설의 진위여부를 검정하기 위해 '표본으로부터 계산'하는 통계량
표본 통계량을 2차 가공한 것 (표본 통계량에 뭔가를 곱하거나 더하거나 했다는 뜻)
t-value의 의미: 차이 / 불확실도
조사/연구 진행 시 두 표본 집단의 차이를 비교할 필요가 있음.
주로 표본 평균의 차이를 비교하고자 함 -> t-value를 검정통계량으로 사용
가령, 새로운 약물을 개발했다고 했을 때 약효를 확인하기 위한 실험 방법은?
-> 구성원들 간 차이가 없는 표본 집단을 만들어서, 그룹1, 그룹2로 나눈 뒤 결과값의 평균을 내서 두 개의 차이를 비교한다.
통계적으로 비교할 때에는 두 표본 그룹의 평균값 차이를 계산하면서, 동시에 표본 그룹의 평균값들은 오차를 수반한다는 사실을 염두에 둬야 함.
-> 표본 평균 차이의 통계적 지표: 차이 / 불확실도 = 차이 * 확실도
수학적으로 t-value의 정의
두 표본 그룹 평균: 추정치
-> 불확실도: 표준오차
충분히 큰 t-value는 어떻게 정해지는가?
검정 통계량 중 하나인 t-value는 표본 통계량을 2차 가공한 것임. 따라서, 표본 통계량의 분포를 확인한 것처럼 모집단에서 두 개의 표본집단을 선정하고(두 번 뽑고) t-value를 계산할 수 있다.
이러한 과정을 무한히 반복하면, 정규분포와 같은 모양으로 그래프가 그려지는 것을 확인할 수 있음.
이러한 t-value의 분포 속에서 충분히 큰 t-value는 100개의 t-value중 상위/하위 2.5개를 일컬음.
t-value가 크다
-> 두 표본집단이 하나의 모집단에서 나왔다고 가정했을 때
이런 큰 t-value가 나왔을 확률은 매우 낮으므로,
이 두 표본집단이 하나의 모집단에서 나왔을 것이라는 가정이 맞을 확률 또한 매우 낮다고 말할 수 있다
'Computer > R' 카테고리의 다른 글
[확률과 통계] f-value와 ANOVA의 의미 (0) | 2021.08.27 |
---|---|
[확률과 통계] 표본, 표준 오차 (0) | 2021.08.26 |
[확률과 통계] 베이즈 정리 (0) | 2021.08.26 |
댓글