Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

codingfarm

정규 분포(Normal Distribution) 본문

통계학/수리통계학

정규 분포(Normal Distribution)

scarecrow1992 2020. 6. 24. 21:37
정규분포
규모가 큰 모집단을 관측할 때 많은 변수들이 종모양의 상대분포를 가질경우, 이런 변수들을 근사하는데 유용한 확률분포이다.

확률 변수 $X$라 정규분포를 따를경우
$X$의 $pdf$는 아래와 같다.
$$f(x) = \dfrac{1}{\sigma \sqrt{2\pi}} \exp{\left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]},~~~~~~-\infty<x<\infty$$

위 식에서 $\mu$와 $\sigma^2$은 $X$의 평균분산이다.

 

규모가 큰 모집단을 관측할 때 많은 변수들이 종모양의 상대분포를 가질경우, 이런 변수들을 근사하는데 유용한 확률 분포는 정규분포이다.

정규 분포는 $\mu$를 기준으로 좌우대칭을 이루며 $\sigma^2$가 클수록 더 고르게 분포한다.

 

확률변수 $X$의 $pdf$가 아래와 같으면

$$f(x) = \dfrac{1}{\sigma \sqrt{2\pi}} \exp{\left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]},~~~~~~-\infty<x<\infty$$

$X$는 모수 $- \infty < \mu < \infty$ 와 $0 < \sigma ^ 2 < \infty$ 를 갖는 정규분포를 갖는다.

또한 $X$는 $N(\mu, \sigma^2)$이라 한다.

 

정규분포를 갖는 확률 변수 $X$의 $pdf$가 정당한지 검토하자

$f(x)$ > 0$임은 바로 알 수 있다.

$\int_{-\infty}^{\infty} f(x) dx = 1$ 임을 확인하자.

$$I = \int_{-\infty}^{\infty}\dfrac{1}{\sigma \sqrt{2\pi}} \exp \left[  - \dfrac{(x - \mu)^2}{2 \sigma^2} \right]dx$$

위 식에서 $z = (x- \mu) / \sigma$ 로 변환

$$I = \int^{\infty}_{-\infty} \dfrac{1}{\sqrt{2\pi}}e^{-z^2 / 2}dz$$

$I>0$ 이므로 $I^2 = 1$ 이면 $I=1$ 이다.

$$\begin{align*} I ^ 2 &= \dfrac{1}{2 \pi} \left[ \int_{-\infty}^{\infty} e^{-x^2/2} dx \right] \left[ \int_{-\infty}^{\infty} e^{-y^2/2}dy \right] \\ &=\dfrac{1}{2\pi} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} exp(-\dfrac{x^2+y^2}{2})dx~dy \end{align*}$$

극좌표로 변화하기 위해 $x = r \cos \theta$ 그리고 $y = r \sin \theta$ 라 치환

$$\begin{align*} I^2 &=\dfrac{1}{2\pi} \int_0^{2\pi} \int_0^\infty e^{-r^2/2}r dr~d\theta\\ &= \dfrac{1}{2\pi} \int_{0}^{2 \pi} d\theta =\dfrac{2\pi}{2\pi} \\ &=1 \end{align*}$$

그러므로 $I =1 $이다.

 

이제 $X$의 평균과 분산을 구해보자.

우선 $X$의 $mgf$를 구한다.

$$\begin{align*} 
M(t) &= \int_{-\infty}^{\infty} \dfrac{e^{tx}}{\sigma \sqrt{2\pi}} \exp \left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]dx\\
&=\int_{-\infty}^{\infty} \dfrac{1}{\sigma \sqrt{2\pi}} \exp \left\{ - \dfrac{1}{2\sigma^2} [ x^2 -2(\mu + \sigma^2t)x + \mu^2]  \right\}dx\\
&= \exp \left( \dfrac{2 \mu \sigma^2 t + \sigma^4 t^2}{2 \sigma^2} \right) \int_{-\infty}^{\infty} \dfrac{1}{\sigma \sqrt{2\pi}} \exp \left\{ - \dfrac{1}{2 \sigma^2} [x - (\mu + \sigma^2t)]^2 \right\}dx\\
&=\exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right)
\end{align*}$$

마지막 적푼계산에서 피적분 함수는 평균이 $\mu + \sigma^2t$이고 분산이 $\sigma^2$인 정규 $pdf$로 생각할 수 있으므로 적분값이 1이다.

이제 $mgf$의 1,2차 도함수를 각각 구한다.

 

$$M'(t) = (\mu + \sigma^2 t) \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right), \\
M''(t) = [(\mu + \sigma^2t)^2 + \sigma^2] \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right)$$

 

따라서 $X$의 평균과 분산은 각각 아래와 같다.

$$\begin{align*}
&E(X) = M'(0) = \mu,\\
&Var(X) = M''(0)-[M'(0)]^2 = \mu^2 + \sigma^2 - \mu^2 = \sigma^2
\end{align*}$$

즉, $N(\mu, \sigma^2)$ 분포의 모수 $\mu$와 $\sigma^2$은 $X$의 평균과 분산이다.

 

 

표준 정규 분표(Standard Normal Distribution)

$Z$가 $N(0,1)$이면 $Z$는 표준 정규 분포를 갖는다고 한다.

$Z$의 $cdf$는

$$\Phi (z) = P(Z \leq z) = \int_{-\infty}^{z}\dfrac{1}{\sqrt{2 \pi}}e^{-w^2/2}dw$$

이다.

$\Phi(z_0)$가 차지하는 영역을 육안으로 판단하면 아래 그림과 같다.

이 적분은 $e^{-w^2/2}$의 부정적분이 함수로 표현될 수 없어 계산하는 것이 불가능하다.

그러므로 적분의 수치 근삿값을 통해 확인해야한다.

 

$X \sim N(\mu, \sigma^2)$ 이면 $Z = (X-\mu)/\sigma \sim N(0,1)$ 이다.

즉, 정규 분포를 따르는 확률변수 $X$에 대해서도 표준 정규 분포표를 이용하여 $cdf$을 알아낼 수 있다.

증명

$Z$의 $cdf$는

$$\begin{align*}
P(Z \leq z) &= P \left( \dfrac{X - \mu}{\sigma} \leq z \right) = P(X \leq z\sigma + \mu)\\
&= \int_{-\infty}^{z \sigma + \mu} \dfrac{1}{\sigma \sqrt{2 \pi}} \exp \left[ - \dfrac{(x - \mu)^2}{e \sigma^2} \right]dx
\end{align*}$$

이다. 이제 $w = (x - \mu) / \sigma$, 즉 $x = w\sigma + \mu$ 로 변수변환하여

$$P(Z \leq z) = \int_{-\infty}^{z} \dfrac{1}{\sqrt{2 \pi}}e^{-w^2/2}dw$$

을 얻는다. 이것은 $N(0,1)$ 분포의 $cdf$인 $\Phi(z)$ 이므로 $Z$는 $N(0,1)$이다.

 

$Z$는 $X$와 관련된 정규점수(standard score)라고 한다.

 

위 정리를 통해 정규분포를 따르는 확률변수 $X$에 관한 확률을 계산하는데 이용가능하다.

가령 $X$가 $N(\mu, \sigma^2)$인 경우 $(X - \mu)/\sigma$ 는 $N(0,1)$ 이므로

$$P(a \leq X \leq b)= P(\dfrac{a - \mu}{\sigma} \leq \dfrac{X - \mu}{\sigma} \leq \dfrac{b - \mu}{\sigma}) = \Phi(\dfrac{b - \mu}{\sigma}) - \Phi(\dfrac{a - \mu}{\sigma})$$

가 되어 정규분포표를 통해 $cdf$를 계산할 수 있다.

$\blacksquare$

 

 

카이제곱 분포와 정규분포의 관계

$\chi^2$분포와 정규분포의 관계에 대해 알아보겠다.

$X \sim N(\mu, \sigma^2), \sigma^2 > 0$ 이면 $V = (X - \mu)^2 / \sigma^2 = Z^2 \sim \chi^2(1)$ 이다. 

증명

$V=Z^2$이고 $Z=(X-\mu) / \sigma$ 는 $N(0,1)$이기 대문에 $v \geq 0$에 대하여 $V$의 $cdf$는

$$\begin{align*}
G(v) &= P(Z^2 \leq v) \ P(-\sqrt v \leq Z \leq \sqrt v) \\
&= \int_{-\sqrt v}^{\sqrt v} \dfrac{1}{\sqrt{2 \pi}}e^{-z^2/2}dz = 2\int_{0}^{\sqrt v}\dfrac{1}{\sqrt{2\pi}}e^{-z^2/2}dz
\end{align*}$$

이다. 이제 $z = \sqrt y$로 변수변환하면 $d(\sqrt y) / dy = 1 / (2 \sqrt y)$이기 때문에

$$G(v) = \int_{0}^{v} \dfrac{1}{\sqrt{2 \pi y}} e^{-y/2} dy,~~~~0 \leq v$$

가 되고 연속형 확률변수 $V$의 $pdf$는 $g(v) = G'(v)$ 이므로

$$g(v) = \dfrac{1}{\sqrt \pi \sqrt 2} v^{1/2-1}e^{-v/2},~~~~ 0 < v < \infty$$

을 얻는다. 한편, $g(v)$는 $pdf$이므로

$$\int_{0}^{\infty} \dfrac{1}{\sqrt \pi \sqrt 2} v^{1/2-1}e^{-v/2}dv=1$$

이어야 한다. $x=v/2$로 변수변환하면

$$1 = \dfrac{1}{\sqrt \pi} \int_{0}^{\infty} x^{1/2-1}e^{-x}dx = \dfrac{1}{\sqrt \pi} \Gamma\left( \dfrac{1}{2} \right)$$

이 되어 $\Gamma(1/2)=\sqrt \pi$임을 알 수 있다.

그렇기에

$g(v)=\dfrac{1}{\sqrt \pi \sqrt 2}v^{1/2-1}e^{-v/2}=\dfrac{1}{\Gamma \left(\dfrac{1}{2} \right) 2^{1/2}}v^{-1/2}e^{-v/2}$

위 식이 만들어짐을 볼 수 있으며 이는 $r= 1/2$ 일때 감마분포의 $pdf$ 이다.

그러므로 $V$는 $\chi^2(1)$을 따른다.

 

Comments