일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Brute Force
- Hash
- Dijkstra
- 그래프
- two pointer
- String
- SQL
- 스토어드 프로시저
- binary search
- DP
- Two Points
- union find
- 다익스트라
- 이진탐색
- MYSQL
- Trie
- Stored Procedure
- Today
- Total
codingfarm
이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution) 본문
이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution)
scarecrow1992 2020. 4. 12. 13:36음이항분포는 베르누이 시행을 미리정한 성공횟수 $r$회가 될때까지 반복 시행할때 확률변수 $X$가 나타내는 분포를 말한다.
$pmf$는 아래와 같다.
$$g(x)={}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r}q^{x-r},\;\;\;x=r,r+1\cdots$$
음이항분포는 $n$번의 시행(여러번의 베르누이 독립시행)에서 $n-1$번의 실패에 대한 확률을 구하는 것이다.
베르누이 시행을 독립으로 반복하는 확률실험에서 $X$를 $r$회 성공하는데 필요한 시행 횟수라 하면, 확률의 곱셈법칙에 의해 $X$의 $pmf$ $g(x)$는 $x-1$번째의 시행까지에서 정확하게 $r-1$회 성공할 확률
$${}_{x-1}C_{r-1}p^{r-1}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r-1}q^{x-r}$$
과 $r$번째의 시행에서 성공할 확률 $p$를 곱하는 것과 같다. 그러므로 확률변수 $X$의 $pmf$가
$$g(x)={}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r}q^{x-r},\;\;\;x=r,r+1\cdots$$
으로 주어진다면 $X$는 모수 $r=1,2\cdots$와 $0<p<1$를 갖는 음이항분포를 갖는다.
$\blacksquare$
음이항분포라는 명칭의 이유로는 음의 지수 $-r$을 갖는 $h(w)=(1-w)^{-r}$의 이항급수전개 결과로 붙여진 것이다. 맥로우린 급수전개를 이용하면
$$\displaystyle (1-w)^{-r}=\sum_{k=0}^{\infty}\frac{h^{(k)}(0)}{k!}w^k=\sum_{k=0}^{\infty}{}_{r+k-1}C_{r-1}w^k,\;\;\;-1<w<1.$$
이제 마지막 등식에서 $x=k+r$이라 놓으면 $k=x-r$이고
$$\displaystyle (1-w)^{-r}=\sum_{k=0}^{\infty}{}_{r+x-r-1}C_{r-1}w^{x-r}=\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}w^{x-r}$$
이것은 $p^r$을 제외하고 $w=q$일 때의 음이항확률의 총합이다. 음이항분포의 확률의 총합은 다음과 같이 1이 된다.
$$\displaystyle \sum_{x=r}^{\infty}g(x)=\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}p^rq^{x-r}=p^rq^{x-r}=p^r(1-q)^{-r}=1$$
$\blacksquare$
$r=1$일 때 $X$는 기하분포(geometric distribution)를 갖는다고 하는데 이는 $pmf$가 기하급수의 항으로 구성되기 때문이다.
즉, 기하분포란 베르누이 시행에서 처음 성공까지 시도한 횟수 $X$의 분포이다.
$$g(x)=p(1-p)^{x-1},\;\;\;x=1,2,3,\cdots$$
기하분포의 누적 분포 함수($cdf$)는 아래와 같다.
$$\displaystyle P(X>k)=\sum_{x=k+1}^{\infty}(1-p)^{x-1}p=\frac{(1-p)^kp}{1-(1-p)}=(1-p)^k=q^k$$
$$\displaystyle P(X \leq k)=\sum_{x=1}^{k}(1-p)^{x-1}p=1-P(X>k)=1-(1-p)^k=1-q^k$$
기하급수가 $|r|<1$일때
$$\displaystyle \sum_{k=0}^{\infty}ar^k=\sum_{k=1}^{\infty}ar^{k-1}=\frac{a}{1-r}$$
이 됨을 이용하면 기하분포에 대해
$$\displaystyle \sum_{x=1}^{\infty}g(x)=\sum_{x=1}^{\infty}(1-p)^{x-1}p=\frac{p}{1-(1-p)}=1$$
이 되어 $g(x)$는 $pmf$의 성질을 만족시킴을 확인하였다.
$k$가 정수일 때 기합급수의 합으로부터
$$\displaystyle P(X>k)=\sum_{x=k+1}^{\infty}(1-p)^{x-1}p=\frac{(1-p)^kp}{1-(1-p)}=(1-p)^k=q^k$$
이다. 따라서 양의 정수 k에서 분포함수의 값은
$$\displaystyle P(X \leq k)=\sum_{x=1}^{k}(1-p)^{x-1}p=1-P(X>k)=1-(1-p)^k=1-q^k$$
이다.
$\blacksquare$
음이항분포의 평균과 분산
$\displaystyle \mu=\frac{r}{p}$
$\displaystyle \sigma^2=\frac{r(1-p)}{p^2}$
평균과 분산을 구하기 위해 음이항분포의 $mgf$를 계산해본다
$(1-p)e^t<1$ 혹은 $t<-\ln(1-p)$에 대해
$$\begin{align*}
M(t) &=\sum_{x=r}^{\infty}e^{tx}{}_{x-1}C_{r-1}p^r(1-p)^{x-r}\\
&=(pe^t)^r\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}[(1-p)e^t]^{x-r}\\
&=\frac{(pe^t)^r}{[1-(1-p)e^t]^r}
\end{align*}$$
따라서
$$\begin{align*}
M'(t) &=(pe^t)^r(-r)[1-(1-p)e^t]^{-r-1}[-(1-p)e^t]+r(pe^t)^{r-1}(pe^t)[1-(1-p)e^t]^{-r}\\
&=r(pe^t)^r[1-(1-p)e^t]^{-r-1}
\end{align*}$$
이고
$$\begin{align*}
M''(t) &=r(pe^t)^r(-r-1)[1-(1-p)e^t]^{-r-2}[-(1-p)e^t]+r^2(pe^t)^{r-1}(pe^t)[1-(1-p)e^t]^{-r-1}
\end{align*}$$
따라서
$$\begin{align*}
M'(0)&=rp^rp^{-r-1}=rp^{-1}&\\
M''(0) &=r(r+1)p^rp^{-r-2}(1-p)+r^2p^rp^{-r-1}&\\
&=rp^{-2}[(1-p)(r+1)+rp]&\\
&=rp^{-2}(r+1-p)&
\end{align*}$$
그러므로
$\displaystyle \mu=\frac{r}{p}$ 그리고 $\displaystyle \sigma^2=\frac{r(r+1-p)}{p^2}-\frac{r^2}{p^2}=\frac{r(1-p)}{p^2}$
위 그림은 음이항분포의 두개 모수인 $p$와 $r$의 값에 따른 확률 히스토그램을 보여준다.
적률 생성 함수가 존재한다면 $t=0$에서 모든 차수의 도함수가 된다. 따라서 $M(t)$를 맥로우린의 급수, 즉
$$M(t)=M(0)+M'(0)\left(\frac{t}{1!}\right)+M''(0)\left(\frac{t^2}{2!}\right)+M'''(0)\left(\frac{t^3}{3!}\right)+\cdots$$
으로 표현할 수 있다.
$M(t)$ 맥로우린 급수전개가 존재하고 적률이 주어진다면 맥로우린 급수를 합하여 $M(t)$의 식을 명백한 형태로 구할 수 있다. 이는 다음 예에서 확인 가능하다.
$\blacksquare$
연습문제
'통계학 > 수리통계학' 카테고리의 다른 글
포아송분포표(Poisson Distribution Table) (0) | 2020.04.14 |
---|---|
이산형 확률분포(Discrete Distribution) - 포아송분포(Poisson Distribution) (0) | 2020.04.14 |
이항분포표(Binomial Distribution Table) (0) | 2020.04.01 |
이산형 확률분포(Discrete Distribution)- 이항분포(The Binomial Distribution) (0) | 2020.04.01 |
이산형 확률분포(Discrete Distribution)- 특별한 수학적 기댓값 (0) | 2020.03.14 |