베르누이분포, 이항분포, 다항분포, 푸아송분포, 정규분포, 카이제곱분포, t분포, f분포
확률과 확률분포는 모집단에 대한 추측 및 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구이다. 이때 확률은 통계적 현상의 확실함의 정도를 나타내는 척도이며, 확률분포는 확률변수의 개별 값들이 가지는 확률 값의 분포이다.
확률변수 : 사건의 시행의 결과(확률)를 하나의 수치로 대응시킬 때의 값
확률분포에 대해 알면 데이터의 분포를 보며 가설을 세울 수 있고, 가설검정을 통해 통계적 유의성을 이야기할 수 있다.
확률분포는 크게 이산확률분포와 연속확률분포로 나뉘는데 이에 해당하는 몇가지 종류의 분포들을 하나씩 정리해보자.
이산확률분포 (Discrete Probability Distribution)
확률변수가 가질 수 있는 값의 수가 유한한 확률분포
Ex. 주사위를 던져 1~6이 나올 확률 (확률변수 1의 확률 값은 1/6)
주사위의 확률변수 X 는 1, 2, 3, 4, 5, 6 으로 셀 수 있다. 각 확률변수에 해당하는 확률 값은 1/6 이며 이들을 모두 더하면 1이 된다.
베르누이분포 (Bernoulli Distribution)
결과가 성공(X=1) 혹은 실패(X=0), 두 가지로 귀결되어 나오는 이산확률분포
- 베르누이 시행 : 결과가 두 개인 시행을 독립적으로 반복하는 것
- P(X=1) + P(X=0) = 1
- 평균 : E(X) = 0*P(0) + 1*P(1) = P(1) = 성공할 확률
- 분산 : V(X) = E(X²) − {E(X)}² = 0*P(0) + 1*P(1) − {P(1)}² = P(1) − {P(1)}² = P(1)*(1 − P(1)) = P(1)*P(0)
이항분포 (Binomial Distribution)
베르누이 시행을 n번 독립적으로 시행할 때 성공횟수를 X 로 정의한 이산확률분포, 즉 성공횟수 X 의 확률분포
- 평균 : E(X) = n*p
- 분산 : V(X) = n*p*(1 − p)
유도 과정 참고 : https://youtu.be/EWlz_FX5icM
다항분포 (Multinomial Distribution)
이항분포와 달리 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포
- 독립변수의 개수 = r − 1 (나머지 하나는 항상 종속변수)
- 평균 : E(X) = n*p
- 분산 : V(X) = n*p*(1 − p)
유도 과정 참고 : https://youtu.be/XMSojB6Qk-4
푸아송분포 (Poisson Distribution)
이항분포의 특수한 경우로, 독립 시행 횟수 n 이 매우 커지고 사건의 발생 확률 p 가 매우 작아질 때의 확률 분포
Ex. 하루 동안 거리에서 연예인을 마주칠 확률 (매순간이 시행 횟수로 n 을 정의내리기 어렵고 p 또한 마찬가지), 핸드폰이 고장날 확률 등
즉, 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포
유도 과정 참고 : https://youtu.be/X4wfHpNKitg
- n, p 를 각각 다룰 수 없지만 이항분포와 마찬가지로 E(X) = n*p 이며 이 값을 ƛ (람다)로 정의한다.
- 평균 : E(X) = ƛ
- 분산 : V(X) = ƛ
유도 과정 참고 : https://youtu.be/aeKP9wSRu2g
평균과 분산 모두 ƛ 이기 때문에 ƛ 값이 커질수록 그래프가 오른쪽으로 이동하면서 점점 펑퍼짐해지는 것을 확인할 수 있다.
연속확률분포 (Continuous Probability Distribution)
확률변수가 가질 수 있는 값의 수가 무한한 확률분포
Ex. 키에 대한 확률변수는 셀 수 없다. 사람마다 160.1, 172.35, 189.9999 등 연속적인 값을 갖기 때문이다.
정규분포 (Normal Distribution, Gaussian Distribution)
평균을 중심으로 대칭이며 종모양인 확률밀도함수의 그래프를 띠는 연속확률분포
- 확률밀도함수 : 확률변수의 분포를 나타내는 함수
정규분포의 모양과 위치는 평균과 표준편차에 의해 완전히 결정된다. 다만 평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X 축 사이의 전체 면적은 항상 1이 된다. 또한 평균에서 특정 표준편차만큼 더한 부분의 면적도 늘 동일하다.
따라서 확률밀도함수 그래프에서 특정 범위에 해당하는 넓이를 편리하게 계산하기 위해 표준정규분포를 사용한다. 평균은 0, 표준편차는 1이 되도록 한 정규분포를 표준정규분포라 한다.
카이제곱분포 (Chi-Squared Distribution)
k 개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 연속확률분포
스튜던트 t 분포 (Student t Distribution)
정규분포의 평균 측정 시 주로 사용하는 연속확률분포
곡선의 모양을 결정하는 것은 자유도
F 분포 (F Distribution)
F 검정이나 분산분석 등에 주로 사용하는 연속확률분포