Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

codingfarm

이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution) 본문

통계학/수리통계학

이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution)

scarecrow1992 2020. 4. 12. 13:36
음이항분포는 베르누이 시행을 미리정한 성공횟수 $r$회가 될때까지 반복 시행할때 확률변수 $X$가 나타내는 분포를 말한다.
  $pmf$는 아래와 같다.
$$g(x)={}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r}q^{x-r},\;\;\;x=r,r+1\cdots$$

음이항분포는 $n$번의 시행(여러번의 베르누이 독립시행)에서 $n-1$번의 실패에 대한 확률을 구하는 것이다.

 베르누이 시행을 독립으로 반복하는 확률실험에서 $X$를 $r$회 성공하는데 필요한 시행 횟수라 하면, 확률의 곱셈법칙에 의해 $X$의 $pmf$ $g(x)$는 $x-1$번째의 시행까지에서 정확하게 $r-1$회 성공할 확률

$${}_{x-1}C_{r-1}p^{r-1}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r-1}q^{x-r}$$

과 $r$번째의 시행에서 성공할 확률 $p$를 곱하는 것과 같다. 그러므로 확률변수 $X$의 $pmf$가

$$g(x)={}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r}q^{x-r},\;\;\;x=r,r+1\cdots$$

으로 주어진다면 $X$는 모수 $r=1,2\cdots$와 $0<p<1$를 갖는 음이항분포를 갖는다.

$\blacksquare$

 

음이항분포라는 명칭의 이유로는 음의 지수 $-r$을 갖는 $h(w)=(1-w)^{-r}$의 이항급수전개 결과로 붙여진 것이다. 맥로우린 급수전개를 이용하면

$$\displaystyle (1-w)^{-r}=\sum_{k=0}^{\infty}\frac{h^{(k)}(0)}{k!}w^k=\sum_{k=0}^{\infty}{}_{r+k-1}C_{r-1}w^k,\;\;\;-1<w<1.$$

이제 마지막 등식에서 $x=k+r$이라 놓으면 $k=x-r$이고

$$\displaystyle (1-w)^{-r}=\sum_{k=0}^{\infty}{}_{r+x-r-1}C_{r-1}w^{x-r}=\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}w^{x-r}$$

이것은 $p^r$을 제외하고 $w=q$일 때의 음이항확률의 총합이다. 음이항분포의 확률의 총합은 다음과 같이 1이 된다.

$$\displaystyle \sum_{x=r}^{\infty}g(x)=\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}p^rq^{x-r}=p^rq^{x-r}=p^r(1-q)^{-r}=1$$

$\blacksquare$

 

$r=1$일 때 $X$는 기하분포(geometric distribution)를 갖는다고 하는데 이는 $pmf$가 기하급수의 항으로 구성되기 때문이다.

즉, 기하분포베르누이 시행에서 처음 성공까지 시도한 횟수 $X$의 분포이다.

$$g(x)=p(1-p)^{x-1},\;\;\;x=1,2,3,\cdots$$

기하분포의 누적 분포 함수($cdf$)는 아래와 같다.
$$\displaystyle P(X>k)=\sum_{x=k+1}^{\infty}(1-p)^{x-1}p=\frac{(1-p)^kp}{1-(1-p)}=(1-p)^k=q^k$$
$$\displaystyle P(X \leq k)=\sum_{x=1}^{k}(1-p)^{x-1}p=1-P(X>k)=1-(1-p)^k=1-q^k$$

기하급수가 $|r|<1$일때

$$\displaystyle \sum_{k=0}^{\infty}ar^k=\sum_{k=1}^{\infty}ar^{k-1}=\frac{a}{1-r}$$

이 됨을 이용하면 기하분포에 대해

$$\displaystyle \sum_{x=1}^{\infty}g(x)=\sum_{x=1}^{\infty}(1-p)^{x-1}p=\frac{p}{1-(1-p)}=1$$

이 되어 $g(x)$는 $pmf$의 성질을 만족시킴을 확인하였다.

$k$가 정수일 때 기합급수의 합으로부터

$$\displaystyle P(X>k)=\sum_{x=k+1}^{\infty}(1-p)^{x-1}p=\frac{(1-p)^kp}{1-(1-p)}=(1-p)^k=q^k$$

이다. 따라서 양의 정수 k에서 분포함수의 값은

$$\displaystyle P(X \leq k)=\sum_{x=1}^{k}(1-p)^{x-1}p=1-P(X>k)=1-(1-p)^k=1-q^k$$

이다.

$\blacksquare$

 

음이항분포의 평균과 분산

$\displaystyle \mu=\frac{r}{p}$
$\displaystyle \sigma^2=\frac{r(1-p)}{p^2}$

평균과 분산을 구하기 위해 음이항분포의 $mgf$를 계산해본다

$(1-p)e^t<1$ 혹은 $t<-\ln(1-p)$에 대해

$$\begin{align*}
M(t) &=\sum_{x=r}^{\infty}e^{tx}{}_{x-1}C_{r-1}p^r(1-p)^{x-r}\\
&=(pe^t)^r\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}[(1-p)e^t]^{x-r}\\
&=\frac{(pe^t)^r}{[1-(1-p)e^t]^r}
\end{align*}$$

따라서

$$\begin{align*}
M'(t) &=(pe^t)^r(-r)[1-(1-p)e^t]^{-r-1}[-(1-p)e^t]+r(pe^t)^{r-1}(pe^t)[1-(1-p)e^t]^{-r}\\
&=r(pe^t)^r[1-(1-p)e^t]^{-r-1}
\end{align*}$$

이고

$$\begin{align*}
M''(t) &=r(pe^t)^r(-r-1)[1-(1-p)e^t]^{-r-2}[-(1-p)e^t]+r^2(pe^t)^{r-1}(pe^t)[1-(1-p)e^t]^{-r-1} 
\end{align*}$$

따라서

$$\begin{align*}
M'(0)&=rp^rp^{-r-1}=rp^{-1}&\\
M''(0) &=r(r+1)p^rp^{-r-2}(1-p)+r^2p^rp^{-r-1}&\\
 &=rp^{-2}[(1-p)(r+1)+rp]&\\
 &=rp^{-2}(r+1-p)&
\end{align*}$$

그러므로

$\displaystyle \mu=\frac{r}{p}$ 그리고 $\displaystyle \sigma^2=\frac{r(r+1-p)}{p^2}-\frac{r^2}{p^2}=\frac{r(1-p)}{p^2}$

 

위 그림은 음이항분포의 두개 모수인 $p$와 $r$의 값에 따른 확률 히스토그램을 보여준다.

적률 생성 함수가 존재한다면 $t=0$에서 모든 차수의 도함수가 된다. 따라서 $M(t)$를 맥로우린의 급수, 즉
$$M(t)=M(0)+M'(0)\left(\frac{t}{1!}\right)+M''(0)\left(\frac{t^2}{2!}\right)+M'''(0)\left(\frac{t^3}{3!}\right)+\cdots$$
으로 표현할 수 있다.

$M(t)$ 맥로우린 급수전개가 존재하고 적률이 주어진다면 맥로우린 급수를 합하여 $M(t)$의 식을 명백한 형태로 구할 수 있다. 이는 다음 예에서 확인 가능하다.

$\blacksquare$

 

연습문제

 

 

Comments