베이즈 정리의 공식
P(H|E) = P(E|H)*P(H)/P(E)
이 공식에는 네 개의 확률이 포함되어 있음. 그 중에서 P(H), P(H|E)가 핵심인데, 각각 사전확률, 사후확률이라고 불린다.
베이즈 정리는 사전확률과 사후확률의 관계에 대해 설명하는 것임
베이즈 정리를 이해하기 어려웠던 이유
확률에 대한 관점의 변화가 필요:
전통적인 관점(빈도주의)와 새로운 관점(베이지안 주의)간 차이가 있음.
'동전의 앞면이 나올 확률이 50%다'
-> 빈도주의: 100번 동전 던지면 50회 앞면 나온다.
-> 베이지안 주의: 동전의 앞면이 나왔다는 주장의 신뢰도가 50%이다.
용어 정리
P(H|E) = P(E|H)*P(H)/P(E)
E, H가 구체적으로 의미하는 것은? Hypothesis (가설, 어떤 사건이 발생했다는 주장), Evidence (새로운 정보)
-> P(H) : 사전확률 = 어떤 사건이 발생했다는 주장에 대한 신뢰도
P(H|E) : 사후확률 = 새로운 정보를 받은 후 갱신된 신뢰도
베이즈 정리는 사전확률과 사후확률 간의 관계에 대해 설명하는 정리이다.
확률론 패러다임의 전환: 연역적 추론에서 귀납적 추론으로
- 베이즈 정리는 통계학의 패러다임을 전환시킴.
기존의 통계학: 빈도주의.
연역적 사고에 기반, 확률 계산, 유의성 검정.
엄격한 확률 공간을 정의하거나(모든 사건에 대해 확률 계산) 집단의 분포를 정의하고(모집단 中 표본이 나올 확률 계산 등) 파생 결과물을 수용.
새로운 통계학: 베이지안 주의.
경험에 기반한 선험적인, 혹은 불확실성을 내포하는 수치는 기반으로 함.
추가되는 정보(E)를 바탕으로 사전 확률(H)을 갱신함. 귀납적 추론 방법. 추가 근거 확보를 통해 진리로 더 다가갈 수 있다는 철학을 내포
예제1
질병 ㄱ의 발병률은 0.1%이다.
실제로 있을 때 질병이 있다고 검진할 확률 (민감도) = 99%
실제로 없을 때 질병이 없다고 검진할 확률 (특이도) = 98%
걸렸다고 검진받았을 때, 정말로 질병에 걸렸을 확률은?
sol) H: 실제로 병이 있다. E: 질병이 있다고 진단 받았다.
-> P(H|E) = P(E|H) * P(H) / P(E)
? = 0.99 * 0.001 / 0.001*0.99 + 0.999*0.02 = 0.047..
답) 4.7%
예제2
예제1에서 한 번 양성 판정을 받았던 사람이 두 번째 검진을 받고 또 양성 판정을 받았을 때, 이 사람이 실제로 질병에 걸린 확률은?
sol) P(H)를 통한 P(H|E)의 갱신! 이제 병이 있을 확률이 4.7%가 됨.
H: 실제로 병이 있다 (0.047) E: 질병이 있다고 두번째로 진단 받았다
-> P(H|E) = P(E|H) * P(H) / P(E)
? = 0.99*0.047 / 0.047*0.99 + 0.954*0.02 = 0.709..
답) 70.9%
'Computer > R' 카테고리의 다른 글
[확률과 통계] f-value와 ANOVA의 의미 (0) | 2021.08.27 |
---|---|
[확률과 통계] t-value의 의미와 스튜던트의 t-test (0) | 2021.08.26 |
[확률과 통계] 표본, 표준 오차 (0) | 2021.08.26 |
댓글