이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

codingfarm

이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution) 본문

통계학/수리통계학

이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution)

scarecrow1992 2020. 4. 12. 13:36

음이항분포는 을 미리정한 성공횟수 $r$ 회가 될때까지 반복 시행할때 확률변수 $X$ 가 나타내는 분포를 말한다.
$pmf$ 는 아래와 같다.
$g(x)={}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r}q^{x-r},\;\;\;x=r,r+1\cdots$

음이항분포는 $n$ 번의 시행(여러번의 베르누이 독립시행)에서 $n-1$ 번의 실패에 대한 확률을 구하는 것이다.

베르누이 시행을 독립으로 반복하는 확률실험에서 $X$ 를 $r$ 회 성공하는데 필요한 시행 횟수라 하면, 확률의 곱셈법칙에 의해 $X$ 의 $pmf$ $g(x)$ 는 $x-1$ 번째의 시행까지에서 정확하게 $r-1$ 회 성공할 확률

${}_{x-1}C_{r-1}p^{r-1}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r-1}q^{x-r}$

과 $r$ 번째의 시행에서 성공할 확률 $p$ 를 곱하는 것과 같다. 그러므로 확률변수 $X$ 의 $pmf$ 가

$g(x)={}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r}q^{x-r},\;\;\;x=r,r+1\cdots$

으로 주어진다면 $X$ 는 모수 $r=1,2\cdots$ 와 $0<p<1$ 를 갖는 음이항분포를 갖는다.

야구대회에서 먼저 4승을 할 경우 해당 게임에서 승리한다. 6번째 경기만에 승리를 거둘 확률은 얼마인가?

proof)

가령 야구대회에서 먼저 4승을 하는 경우를 게임에서 승리하는 경우라 가정했을때

6번째 경기만에 승리할 경우의 수는 아래와 같습니다.

$\begin{align*} 1. &W&&W&&W&&\color{orange}L&&\color{orange}L&&\color{blue}W\\ 2. &W&&W&&\color{orange}L&&\color{orange}L&&W&&\color{blue}W\\ 3. &W&&\color{orange}L&&\color{orange}L&&W&&W&&\color{blue}W\\ 4. &\color{orange}L&&\color{orange}L&&W&&W&&W&&\color{blue}W\\ 5. &W&&W&&\color{orange}L&&W&&\color{orange}L&&\color{blue}W\\ 6. &W&&\color{orange}L&&W&&\color{orange}L&&W&&\color{blue}W\\ 7. &\color{orange}L&&W&&\color{orange}L&&W&&W&&\color{blue}W\\ 8. &W&&\color{orange}L&&W&&W&&\color{orange}L&&\color{blue}W\\ 9. &\color{orange}L&&W&&W&&\color{orange}L&&W&&\color{blue}W\\ 10. &\color{orange}L&&W&&W&&W&&\color{orange}L&&\color{blue}W\\ \end{align*}$

눈여겨 볼것은 정확히 6번의 경기만에 4승을 거둬야 한다는 점입니다. 즉, 첫번째 4게임이나 5게임만에 4승을 먼저 거두어선 안되는것입니다.

이를 위해선 5번째 게임이 이루어 젔을때에 3승 2패를 거두어야 하며 6번째 게임에서 승리 해야 합니다.

즉, 5번째 게임에서 3승 2패를 할 확률은 5차례의 베르누이 시행에서 3번의 성공과 2번의 실패를 할 확률인 ${}_5C_3p^3(1-p)^2$ 와 6번째에서 승리할 확률인 $p$ 를 곱한 ${}_5C_3p^4(1-p)^2$ 가 되는것입니다.

$\blacksquare$

음이항분포라는 명칭의 이유로는 음의 지수 $-r$ 을 갖는 $h(w)=(1-w)^{-r}$ 의 이항급수전개 결과로 붙여진 것이다. 맥로우린 급수전개를 이용하면

$\displaystyle (1-w)^{-r}=\sum_{k=0}^{\infty}\frac{h^{(k)}(0)}{k!}w^k=\sum_{k=0}^{\infty}{}_{r+k-1}C_{r-1}w^k,\;\;\;-1<w<1.$

이제 마지막 등식에서 $x=k+r$ 이라 놓으면 $k=x-r$ 이고

$\displaystyle (1-w)^{-r}=\sum_{k=0}^{\infty}{}_{r+x-r-1}C_{r-1}w^{x-r}=\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}w^{x-r}$

이것은 $p^r$ 을 제외하고 $w=q$ 일 때의 음이항확률의 총합이다. 음이항분포의 확률의 총합은 다음과 같이 1이 된다.

$\displaystyle \sum_{x=r}^{\infty}g(x)=\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}p^rq^{x-r}=p^rq^{x-r}=p^r(1-q)^{-r}=1$

$\blacksquare$

$r=1$ 일 때 $X$ 는 기하분포(geometric distribution)를 갖는다고 하는데 이는 $pmf$ 가 기하급수의 항으로 구성되기 때문이다.

즉, 기하분포란 베르누이 시행에서 처음 성공까지 시도한 횟수 $X$ 의 분포이다.

$g(x)=p(1-p)^{x-1},\;\;\;x=1,2,3,\cdots$

기하분포의 누적 분포 함수( $cdf$ )는 아래와 같다.
$\displaystyle P(X>k)=\sum_{x=k+1}^{\infty}(1-p)^{x-1}p=\frac{(1-p)^kp}{1-(1-p)}=(1-p)^k=q^k$
$\displaystyle P(X \leq k)=\sum_{x=1}^{k}(1-p)^{x-1}p=1-P(X>k)=1-(1-p)^k=1-q^k$

기하급수가 $|r|<1$ 일때

$\displaystyle \sum_{k=0}^{\infty}ar^k=\sum_{k=1}^{\infty}ar^{k-1}=\frac{a}{1-r}$

이 됨을 이용하면 기하분포에 대해

$\displaystyle \sum_{x=1}^{\infty}g(x)=\sum_{x=1}^{\infty}(1-p)^{x-1}p=\frac{p}{1-(1-p)}=1$

이 되어 $g(x)$ 는 $pmf$ 의 성질을 만족시킴을 확인하였다.

$k$ 가 정수일 때 기합급수의 합으로부터

$\displaystyle P(X>k)=\sum_{x=k+1}^{\infty}(1-p)^{x-1}p=\frac{(1-p)^kp}{1-(1-p)}=(1-p)^k=q^k$

이다. 따라서 양의 정수 k에서 분포함수의 값은

$\displaystyle P(X \leq k)=\sum_{x=1}^{k}(1-p)^{x-1}p=1-P(X>k)=1-(1-p)^k=1-q^k$

이다.

$\blacksquare$

음이항분포의 평균과 분산

$\displaystyle \mu=\frac{r}{p}$
$\displaystyle \sigma^2=\frac{r(1-p)}{p^2}$

평균과 분산을 구하기 위해 음이항분포의 $mgf$ 를 계산해본다

$(1-p)e^t<1$ 혹은 $t<-\ln(1-p)$ 에 대해

$\begin{align*} M(t) &=\sum_{x=r}^{\infty}e^{tx}{}_{x-1}C_{r-1}p^r(1-p)^{x-r}\\ &=(pe^t)^r\sum_{x=r}^{\infty}{}_{x-1}C_{r-1}[(1-p)e^t]^{x-r}\\ &=\frac{(pe^t)^r}{[1-(1-p)e^t]^r} \end{align*}$

따라서

$\begin{align*} M'(t) &=(pe^t)^r(-r)[1-(1-p)e^t]^{-r-1}[-(1-p)e^t]+r(pe^t)^{r-1}(pe^t)[1-(1-p)e^t]^{-r}\\ &=r(pe^t)^r[1-(1-p)e^t]^{-r-1} \end{align*}$

이고

$\begin{align*} M''(t) &=r(pe^t)^r(-r-1)[1-(1-p)e^t]^{-r-2}[-(1-p)e^t]+r^2(pe^t)^{r-1}(pe^t)[1-(1-p)e^t]^{-r-1} \end{align*}$

따라서

$\begin{align*} M'(0)&=rp^rp^{-r-1}=rp^{-1}&\\ M''(0) &=r(r+1)p^rp^{-r-2}(1-p)+r^2p^rp^{-r-1}&\\ &=rp^{-2}[(1-p)(r+1)+rp]&\\ &=rp^{-2}(r+1-p)& \end{align*}$

그러므로

$\displaystyle \mu=\frac{r}{p}$ 그리고 $\displaystyle \sigma^2=\frac{r(r+1-p)}{p^2}-\frac{r^2}{p^2}=\frac{r(1-p)}{p^2}$

위 그림은 음이항분포의 두개 모수인 $p$ 와 $r$ 의 값에 따른 확률 히스토그램을 보여준다.

적률 생성 함수가 존재한다면 $t=0$ 에서 모든 차수의 도함수가 된다. 따라서 $M(t)$ 를 맥로우린의 급수, 즉
$M(t)=M(0)+M'(0)\left(\frac{t}{1!}\right)+M''(0)\left(\frac{t^2}{2!}\right)+M'''(0)\left(\frac{t^3}{3!}\right)+\cdots$
으로 표현할 수 있다.

$M(t)$ 맥로우린 급수전개가 존재하고 적률이 주어진다면 맥로우린 급수를 합하여 $M(t)$ 의 식을 명백한 형태로 구할 수 있다. 이는 다음 예에서 확인 가능하다.

$\blacksquare$

연습문제

저작자표시

'통계학 > 수리통계학' 카테고리의 다른 글

포아송분포표(Poisson Distribution Table) (0)	2020.04.14
이산형 확률분포(Discrete Distribution) - 포아송분포(Poisson Distribution) (0)	2020.04.14
이항분포표(Binomial Distribution Table) (0)	2020.04.01
이산형 확률분포(Discrete Distribution)- 이항분포(The Binomial Distribution) (0)	2020.04.01
이산형 확률분포(Discrete Distribution)- 특별한 수학적 기댓값 (0)	2020.03.14