일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Brute Force
- Two Points
- 이진탐색
- two pointer
- String
- MYSQL
- Hash
- Stored Procedure
- DP
- 다익스트라
- union find
- SQL
- 스토어드 프로시저
- binary search
- Dijkstra
- 그래프
- Trie
- Today
- Total
codingfarm
연속형 확률분포 - 지수분포(The Exponential Distributions) 본문
지수 분포(Exponential Distributions)
이산형 확률변수의 포아송분포와 관련된 연속형 분포에 대해 알아보겠다.
주어진 구간에서 발생건수는 포아송분포를 갖는 이산형 확률변수이다. 여기서 연속되는 발생 사이의 대기시간은 연속형의 확률변수이다.
확률변수 $X$가 지수분포(exponential distribution)을 가질경우
확률변수 $X$는 사건이 처음 발생하는 시간,공간이 되며, $\theta$는 다음 사건이 발생하는 시간적, 공간적 평균길이 일때 $X$의 $pdf$는 모수 $\theta > 0$에 대해
$$f(x)=\dfrac{1}{\theta}e^{-x/\theta},\;\;\;\;0\leq x < \infty$$
지수분포의 평균과 분산은
$$\begin{align*} \mu&=\theta\\ \sigma^2&=\theta^2 \end{align*}$$
$X$의 $cdf$는
$$F(x) = P(X < x) = 1-e^{-\lambda x}$$
포아송분포에서 모수$\lambda$가 단위 시간 혹은 단위 공간에서 일어나는 사건의 평균 횟수 라면
지수분포에서 $\theta$는 각사건 발생 사이의 평균 대기 시간이다.
포아송분포 | 지수분포 |
일정시간동안 및 일정공간에서 발생하는 사건의 횟수가 따르는 확률분포 |
다음 사건이 일어날때 까지의 대기 시간의 분포 (기하분포와 유사하다) |
즉, 평균 $\lambda$를 갖는 (근사) 포아송과정에서 첫 발생이 일어날때 까지 기다린 시간은 지수분포를 가진다.
연속해서 발생하는 사건 사이의 대기시간은 연속형의 확률변수이다. 특히 단위구간에서 평균 발생 건수가 $\lambda$인 포아송과정에서 첫 발생이 일어날 때까지 대기시간을 확률변수 $W$라 하자.
처음에 사건이 발생한 시간이 $w$인 경우, 대기시간은 음수가 아니기에 $w<0$에 대해 $cdf$는 $F(w)=0$이다.
그러나 $w \geq 0$에 대해서는
$$\begin{align*}
F(w)&=P(W \leq w) = 1-P(W > w)\\
&=1-P(포아송분포의\;구간 [0,w]에\;단\;하나의\;사건\;발생도\;없다.)\\
&=1-e^{-\lambda w}
\end{align*}$$
구간길이 $w$인 구간에서 사건이 $x$번 발생한 경우의 포아송분포 $pmf$는 아래와 같다.
$$f(x)=\dfrac{\lambda^xe^{-\lambda w}}{x!}$$
사건이 한번도 발생하지 않은 경우를 다루기 위해 위 식에서 $x=0$을 대입하면
$$f(0)=\dfrac{\lambda^0e^{-\lambda w}}{0!}=e^{-\lambda w}$$
즉, 단위구간당 평균 발생의 수가 $\lambda$라면 구간길이 $w$인 구간에서 평균 발생의 수는 $w$에 비례하므로 $\lambda w$로 주어진다. 따라서 $w > 0$일 때 $W$의 $pdf$는
$$F'(w)=f(w)=\lambda e^{-\lambda w}$$
이며.
$f(w)$ : 사건이 평균 $\lambda$번 발생할때 첫번째 사건이 발생하는 길이 $w$에 대한 $pmf$
흔히 $\lambda = \dfrac{1}{\theta}$으로 놓으면 확률변수 $X$는 지수분포(exponential distribution)을 갖는다 한다.
확률변수 $X$의 $pdf$는 모수 $\theta > 0$에 대해
$$f(x)=\dfrac{1}{\theta}e^{-x/\theta},\;\;\;\;\;\;0 \leq x < \infty$$
$$F(x)=\begin{cases}0,&-\infty < x<0 \\ 1-e^{-x/\theta}, &0 \leq x < \infty \end{cases}$$
으로 주어진다. 따라서 포아송과정에서 첫 발생이 일어날 때까지의 대기시간 $W$는 $\theta=\dfrac{1}{\lambda}$를 갖는 지수분포를 갖는다. 지수분포의 $mgf$는
$$\begin{align*}
M(t)&=\int_{0}^{\infty}e^{tx}\left(\dfrac{1}{\theta}\right)e^{-x/\theta}dx\\
&=\lim_{b \rightarrow \infty}\int_{0}^{b}\left(\dfrac{1}{\theta}\right)e^{\displaystyle-(1-\theta t)x/\theta}dx\\
&=\lim_{b \rightarrow \infty}\left[-\dfrac{e^{\displaystyle -(1-\theta t)x/\theta}}{1-\theta t} \right]_{0}^{b}\\
&=\dfrac{1}{1-\theta t},\;\;\;\;\;t<\dfrac{1}{\theta}
\end{align*}$$
따라서
$$M'(t)=\dfrac{\theta}{(1-\theta t)^2},\;\;\;\;\;\;\;M''(t)=\dfrac{2\theta^2}{(1-\theta t)^3}$$
이제 지수분포의 평균과 분산을 얻을 수 있다.
$$\mu=M'(0)=\theta,\;\;\;\;\;\sigma^2=M''(0)-[M'(0)]^2=\theta^2$$
$\lambda$는 단위 구간당 평균 발생횟수를 의미한다.
그러므로 $\theta=\dfrac{1}{\lambda}$의 정확한 의미는 첫 발생이 이루어질 때까지의 평균 대기시간이다.
가령, $\lambda=7$이 분당평균발생건수라고 할 경우에 평균 발생 시간겸 첫발생이 이루어질때까지 걸리는 시간은 $\theta=\dfrac{1}{\lambda}=\dfrac{1}{7}$로 우리의 직관과도 일치한다.
$\theta=5$일때 기하분포를 따르는 확률변수$X$의 $pdf$와 $cdf$의 그래프이다.
$X$의 중위수는 $F(m)=1-e^{-m/\theta}=0.5$를 풀어서 $m=-\theta\ln (0.5)=3.466$이다.
이는 그래프에서도 확인 할 수 있다.
예제 3.2-3를 보면 최소한 수명이 $x$단위 지속지속될 확률과 그 이후 $y$시간이 더 지속될 확률은 같다. 이러한 의미에서 지수분포는 무기억성을 갖는 유일한 연속형 분포이다. 이산형 분포로서는 기하분포가 무기억성을 갖는다.
'통계학 > 수리통계학' 카테고리의 다른 글
연속형 확률분포 - 카이제곱분포(chi-square distribution) (0) | 2020.04.30 |
---|---|
연속형 확률분포 - 감마분포(The Gamma Distributions) (0) | 2020.04.23 |
연속형 확률분포 - 연속형 확률변수(Continuous Random Variables of The Continuous Type ) (0) | 2020.04.21 |
포아송분포표(Poisson Distribution Table) (0) | 2020.04.14 |
이산형 확률분포(Discrete Distribution) - 포아송분포(Poisson Distribution) (0) | 2020.04.14 |