[통계 공부] 확률분포 개념 정리

Ganni
7 min readApr 4, 2021

--

베르누이분포, 이항분포, 다항분포, 푸아송분포, 정규분포, 카이제곱분포, t분포, f분포

https://medium.com/mytake/understanding-different-types-of-distributions-you-will-encounter-as-a-data-scientist-27ea4c375eec

확률과 확률분포는 모집단에 대한 추측 및 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구이다. 이때 확률은 통계적 현상의 확실함의 정도를 나타내는 척도이며, 확률분포는 확률변수의 개별 값들이 가지는 확률 값의 분포이다.

확률변수 : 사건의 시행의 결과(확률)를 하나의 수치로 대응시킬 때의 값

확률분포에 대해 알면 데이터의 분포를 보며 가설을 세울 수 있고, 가설검정을 통해 통계적 유의성을 이야기할 수 있다.

확률분포는 크게 이산확률분포와 연속확률분포로 나뉘는데 이에 해당하는 몇가지 종류의 분포들을 하나씩 정리해보자.

이산확률분포 (Discrete Probability Distribution)

확률변수가 가질 수 있는 값의 수가 유한한 확률분포

Ex. 주사위를 던져 1~6이 나올 확률 (확률변수 1의 확률 값은 1/6)

https://medium.com/analytics-vidhya/probability-distributions-444e7babf2e1

주사위의 확률변수 X 는 1, 2, 3, 4, 5, 6 으로 셀 수 있다. 각 확률변수에 해당하는 확률 값은 1/6 이며 이들을 모두 더하면 1이 된다.

베르누이분포 (Bernoulli Distribution)

결과가 성공(X=1) 혹은 실패(X=0), 두 가지로 귀결되어 나오는 이산확률분포

https://kr.mathworks.com/help/stats/bernoulli-distribution.html
  • 베르누이 시행 : 결과가 두 개인 시행을 독립적으로 반복하는 것
  • P(X=1) + P(X=0) = 1
  • 평균 : E(X) = 0*P(0) + 1*P(1) = P(1) = 성공할 확률
  • 분산 : V(X) = E(X²) − {E(X)}² = 0*P(0) + 1*P(1) − {P(1)}² = P(1) − {P(1)}² = P(1)*(1 − P(1)) = P(1)*P(0)

이항분포 (Binomial Distribution)

베르누이 시행을 n번 독립적으로 시행할 때 성공횟수를 X 로 정의한 이산확률분포, 즉 성공횟수 X 의 확률분포

n번의 시행 중 x번 성공할 확률 (p : 어떤 독립시행에서 특정 사건이 발생할 확률)
  • 평균 : E(X) = n*p
  • 분산 : V(X) = n*p*(1 − p)

유도 과정 참고 : https://youtu.be/EWlz_FX5icM

이항분포 그래프 — p 가 극단적으로 크거나 작지 않은 상태에서 n=30 이상이 되면 정규분포에 근사해진다.

다항분포 (Multinomial Distribution)

이항분포와 달리 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포

n번의 시행 중 총 r개의 특정 사건이 특정 횟수만큼 발생할 확률
  • 독립변수의 개수 = r − 1 (나머지 하나는 항상 종속변수)
  • 평균 : E(X) = n*p
  • 분산 : V(X) = n*p*(1 − p)

유도 과정 참고 : https://youtu.be/XMSojB6Qk-4

https://towardsdatascience.com/multinomial-mixture-model-for-supermarket-shoppers-segmentation-a-complete-tutorial-268974d905da

푸아송분포 (Poisson Distribution)

이항분포의 특수한 경우로, 독립 시행 횟수 n 이 매우 커지고 사건의 발생 확률 p 가 매우 작아질 때의 확률 분포

Ex. 하루 동안 거리에서 연예인을 마주칠 확률 (매순간이 시행 횟수로 n 을 정의내리기 어렵고 p 또한 마찬가지), 핸드폰이 고장날 확률 등

즉, 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포

단위 시간 동안 어떤 사건이 x번 일어날 확률 (ƛ : 사건의 평균 발생 횟수)

유도 과정 참고 : https://youtu.be/X4wfHpNKitg

  • n, p 를 각각 다룰 수 없지만 이항분포와 마찬가지로 E(X) = n*p 이며 이 값을 ƛ (람다)로 정의한다.
  • 평균 : E(X) = ƛ
  • 분산 : V(X) = ƛ

유도 과정 참고 : https://youtu.be/aeKP9wSRu2g

https://en.wikipedia.org/wiki/Poisson_distribution

평균과 분산 모두 ƛ 이기 때문에 ƛ 값이 커질수록 그래프가 오른쪽으로 이동하면서 점점 펑퍼짐해지는 것을 확인할 수 있다.

연속확률분포 (Continuous Probability Distribution)

확률변수가 가질 수 있는 값의 수가 무한한 확률분포

Ex. 키에 대한 확률변수는 셀 수 없다. 사람마다 160.1, 172.35, 189.9999 등 연속적인 값을 갖기 때문이다.

정규분포 (Normal Distribution, Gaussian Distribution)

평균을 중심으로 대칭이며 종모양인 확률밀도함수의 그래프를 띠는 연속확률분포

  • 확률밀도함수 : 확률변수의 분포를 나타내는 함수
https://en.wikipedia.org/wiki/Normal_distribution

정규분포의 모양과 위치는 평균과 표준편차에 의해 완전히 결정된다. 다만 평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X 축 사이의 전체 면적은 항상 1이 된다. 또한 평균에서 특정 표준편차만큼 더한 부분의 면적도 늘 동일하다.

https://en.wikipedia.org/wiki/Normal_distribution

따라서 확률밀도함수 그래프에서 특정 범위에 해당하는 넓이를 편리하게 계산하기 위해 표준정규분포를 사용한다. 평균은 0, 표준편차는 1이 되도록 한 정규분포를 표준정규분포라 한다.

카이제곱분포 (Chi-Squared Distribution)

k 개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 연속확률분포

스튜던트 t 분포 (Student t Distribution)

정규분포의 평균 측정 시 주로 사용하는 연속확률분포

곡선의 모양을 결정하는 것은 자유도

F 분포 (F Distribution)

F 검정이나 분산분석 등에 주로 사용하는 연속확률분포

--

--