일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 그래프
- union find
- 이진탐색
- 다익스트라
- 스토어드 프로시저
- Hash
- SQL
- String
- Trie
- MYSQL
- Dijkstra
- binary search
- Brute Force
- Stored Procedure
- two pointer
- DP
- Two Points
- Today
- Total
codingfarm
정규 분포(Normal Distribution) 본문
정규분포
규모가 큰 모집단을 관측할 때 많은 변수들이 종모양의 상대분포를 가질경우, 이런 변수들을 근사하는데 유용한 확률분포이다.
확률 변수 $X$라 정규분포를 따를경우
$X$의 $pdf$는 아래와 같다.
$$f(x) = \dfrac{1}{\sigma \sqrt{2\pi}} \exp{\left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]},~~~~~~-\infty<x<\infty$$
위 식에서 $\mu$와 $\sigma^2$은 $X$의 평균과 분산이다.
규모가 큰 모집단을 관측할 때 많은 변수들이 종모양의 상대분포를 가질경우, 이런 변수들을 근사하는데 유용한 확률 분포는 정규분포이다.
정규 분포는 $\mu$를 기준으로 좌우대칭을 이루며 $\sigma^2$가 클수록 더 고르게 분포한다.
확률변수 $X$의 $pdf$가 아래와 같으면
$$f(x) = \dfrac{1}{\sigma \sqrt{2\pi}} \exp{\left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]},~~~~~~-\infty<x<\infty$$
$X$는 모수 $- \infty < \mu < \infty$ 와 $0 < \sigma ^ 2 < \infty$ 를 갖는 정규분포를 갖는다.
또한 $X$는 $N(\mu, \sigma^2)$이라 한다.
정규분포를 갖는 확률 변수 $X$의 $pdf$가 정당한지 검토하자
$f(x)$ > 0$임은 바로 알 수 있다.
$\int_{-\infty}^{\infty} f(x) dx = 1$ 임을 확인하자.
$$I = \int_{-\infty}^{\infty}\dfrac{1}{\sigma \sqrt{2\pi}} \exp \left[ - \dfrac{(x - \mu)^2}{2 \sigma^2} \right]dx$$
위 식에서 $z = (x- \mu) / \sigma$ 로 변환
$$I = \int^{\infty}_{-\infty} \dfrac{1}{\sqrt{2\pi}}e^{-z^2 / 2}dz$$
$I>0$ 이므로 $I^2 = 1$ 이면 $I=1$ 이다.
$$\begin{align*} I ^ 2 &= \dfrac{1}{2 \pi} \left[ \int_{-\infty}^{\infty} e^{-x^2/2} dx \right] \left[ \int_{-\infty}^{\infty} e^{-y^2/2}dy \right] \\ &=\dfrac{1}{2\pi} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} exp(-\dfrac{x^2+y^2}{2})dx~dy \end{align*}$$
극좌표로 변화하기 위해 $x = r \cos \theta$ 그리고 $y = r \sin \theta$ 라 치환
$$\begin{align*} I^2 &=\dfrac{1}{2\pi} \int_0^{2\pi} \int_0^\infty e^{-r^2/2}r dr~d\theta\\ &= \dfrac{1}{2\pi} \int_{0}^{2 \pi} d\theta =\dfrac{2\pi}{2\pi} \\ &=1 \end{align*}$$
그러므로 $I =1 $이다.
이제 $X$의 평균과 분산을 구해보자.
우선 $X$의 $mgf$를 구한다.
$$\begin{align*}
M(t) &= \int_{-\infty}^{\infty} \dfrac{e^{tx}}{\sigma \sqrt{2\pi}} \exp \left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]dx\\
&=\int_{-\infty}^{\infty} \dfrac{1}{\sigma \sqrt{2\pi}} \exp \left\{ - \dfrac{1}{2\sigma^2} [ x^2 -2(\mu + \sigma^2t)x + \mu^2] \right\}dx\\
&= \exp \left( \dfrac{2 \mu \sigma^2 t + \sigma^4 t^2}{2 \sigma^2} \right) \int_{-\infty}^{\infty} \dfrac{1}{\sigma \sqrt{2\pi}} \exp \left\{ - \dfrac{1}{2 \sigma^2} [x - (\mu + \sigma^2t)]^2 \right\}dx\\
&=\exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right)
\end{align*}$$
마지막 적푼계산에서 피적분 함수는 평균이 $\mu + \sigma^2t$이고 분산이 $\sigma^2$인 정규 $pdf$로 생각할 수 있으므로 적분값이 1이다.
이제 $mgf$의 1,2차 도함수를 각각 구한다.
$$M'(t) = (\mu + \sigma^2 t) \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right), \\
M''(t) = [(\mu + \sigma^2t)^2 + \sigma^2] \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right)$$
따라서 $X$의 평균과 분산은 각각 아래와 같다.
$$\begin{align*}
&E(X) = M'(0) = \mu,\\
&Var(X) = M''(0)-[M'(0)]^2 = \mu^2 + \sigma^2 - \mu^2 = \sigma^2
\end{align*}$$
즉, $N(\mu, \sigma^2)$ 분포의 모수 $\mu$와 $\sigma^2$은 $X$의 평균과 분산이다.
표준 정규 분표(Standard Normal Distribution)
$Z$가 $N(0,1)$이면 $Z$는 표준 정규 분포를 갖는다고 한다.
$Z$의 $cdf$는
$$\Phi (z) = P(Z \leq z) = \int_{-\infty}^{z}\dfrac{1}{\sqrt{2 \pi}}e^{-w^2/2}dw$$
이다.
$\Phi(z_0)$가 차지하는 영역을 육안으로 판단하면 아래 그림과 같다.
이 적분은 $e^{-w^2/2}$의 부정적분이 함수로 표현될 수 없어 계산하는 것이 불가능하다.
그러므로 적분의 수치 근삿값을 통해 확인해야한다.
$X \sim N(\mu, \sigma^2)$ 이면 $Z = (X-\mu)/\sigma \sim N(0,1)$ 이다.
즉, 정규 분포를 따르는 확률변수 $X$에 대해서도 표준 정규 분포표를 이용하여 $cdf$을 알아낼 수 있다.
증명
$Z$의 $cdf$는
$$\begin{align*}
P(Z \leq z) &= P \left( \dfrac{X - \mu}{\sigma} \leq z \right) = P(X \leq z\sigma + \mu)\\
&= \int_{-\infty}^{z \sigma + \mu} \dfrac{1}{\sigma \sqrt{2 \pi}} \exp \left[ - \dfrac{(x - \mu)^2}{e \sigma^2} \right]dx
\end{align*}$$
이다. 이제 $w = (x - \mu) / \sigma$, 즉 $x = w\sigma + \mu$ 로 변수변환하여
$$P(Z \leq z) = \int_{-\infty}^{z} \dfrac{1}{\sqrt{2 \pi}}e^{-w^2/2}dw$$
을 얻는다. 이것은 $N(0,1)$ 분포의 $cdf$인 $\Phi(z)$ 이므로 $Z$는 $N(0,1)$이다.
$Z$는 $X$와 관련된 정규점수(standard score)라고 한다.
위 정리를 통해 정규분포를 따르는 확률변수 $X$에 관한 확률을 계산하는데 이용가능하다.
가령 $X$가 $N(\mu, \sigma^2)$인 경우 $(X - \mu)/\sigma$ 는 $N(0,1)$ 이므로
$$P(a \leq X \leq b)= P(\dfrac{a - \mu}{\sigma} \leq \dfrac{X - \mu}{\sigma} \leq \dfrac{b - \mu}{\sigma}) = \Phi(\dfrac{b - \mu}{\sigma}) - \Phi(\dfrac{a - \mu}{\sigma})$$
가 되어 정규분포표를 통해 $cdf$를 계산할 수 있다.
$\blacksquare$
카이제곱 분포와 정규분포의 관계
$\chi^2$분포와 정규분포의 관계에 대해 알아보겠다.
$X \sim N(\mu, \sigma^2), \sigma^2 > 0$ 이면 $V = (X - \mu)^2 / \sigma^2 = Z^2 \sim \chi^2(1)$ 이다.
증명
$V=Z^2$이고 $Z=(X-\mu) / \sigma$ 는 $N(0,1)$이기 대문에 $v \geq 0$에 대하여 $V$의 $cdf$는
$$\begin{align*}
G(v) &= P(Z^2 \leq v) \ P(-\sqrt v \leq Z \leq \sqrt v) \\
&= \int_{-\sqrt v}^{\sqrt v} \dfrac{1}{\sqrt{2 \pi}}e^{-z^2/2}dz = 2\int_{0}^{\sqrt v}\dfrac{1}{\sqrt{2\pi}}e^{-z^2/2}dz
\end{align*}$$
이다. 이제 $z = \sqrt y$로 변수변환하면 $d(\sqrt y) / dy = 1 / (2 \sqrt y)$이기 때문에
$$G(v) = \int_{0}^{v} \dfrac{1}{\sqrt{2 \pi y}} e^{-y/2} dy,~~~~0 \leq v$$
가 되고 연속형 확률변수 $V$의 $pdf$는 $g(v) = G'(v)$ 이므로
$$g(v) = \dfrac{1}{\sqrt \pi \sqrt 2} v^{1/2-1}e^{-v/2},~~~~ 0 < v < \infty$$
을 얻는다. 한편, $g(v)$는 $pdf$이므로
$$\int_{0}^{\infty} \dfrac{1}{\sqrt \pi \sqrt 2} v^{1/2-1}e^{-v/2}dv=1$$
이어야 한다. $x=v/2$로 변수변환하면
$$1 = \dfrac{1}{\sqrt \pi} \int_{0}^{\infty} x^{1/2-1}e^{-x}dx = \dfrac{1}{\sqrt \pi} \Gamma\left( \dfrac{1}{2} \right)$$
이 되어 $\Gamma(1/2)=\sqrt \pi$임을 알 수 있다.
그렇기에
$g(v)=\dfrac{1}{\sqrt \pi \sqrt 2}v^{1/2-1}e^{-v/2}=\dfrac{1}{\Gamma \left(\dfrac{1}{2} \right) 2^{1/2}}v^{-1/2}e^{-v/2}$
위 식이 만들어짐을 볼 수 있으며 이는 $r= 1/2$ 일때 감마분포의 $pdf$ 이다.
그러므로 $V$는 $\chi^2(1)$을 따른다.
'통계학 > 수리통계학' 카테고리의 다른 글
피어슨 상관 계수(Pearson Correlation Coefficient) (0) | 2020.08.14 |
---|---|
이산형 이변량 분포(Bivariate Distribution of The Discrete Type) (0) | 2020.07.01 |
연속형 확률분포 - 카이제곱분포(chi-square distribution) (0) | 2020.04.30 |
연속형 확률분포 - 감마분포(The Gamma Distributions) (0) | 2020.04.23 |
연속형 확률분포 - 지수분포(The Exponential Distributions) (0) | 2020.04.21 |