Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Archives
Today
Total
관리 메뉴

codingfarm

이산형 확률분포(Discrete Distribution)- 확률변수, 수학적 기댓값 본문

통계학/수리통계학

이산형 확률분포(Discrete Distribution)- 확률변수, 수학적 기댓값

scarecrow1992 2020. 3. 7. 20:54

확률 변수(Random Variable)

$\bullet$ 표본 공간 $S$를 갖는 확률 실험이 주어질때, 각 원소 $s \in S$에 대해 오직 하나의 실수 $X(s)=x$를 대응시키는 함수 $X$를 확률 변수라 한다.

즉, 어떤 사건, 사상에 수치가 부여된 함수라고 볼 수 있다.

$\bullet$ X의 공간(space)는 실수의 집합 $\{x:X(s)=x, s\in S\}$이다.

$\bullet$ 표본공간 $S$가 수가 아닐때에 S의 기술을 편리하게 해준다

$\bullet$ 표본공간 $S$의 원소가 실수일 경우 $X(s)=s$이다. 그래서 $X$는 항등함수이고 $X$의 공간은 $S$이다.

 

이산형 확률 변수(random variables of the discrete type)

$\circ$이산형 확률변수 $X$에 대해 확률 $P(X=x)$를 보통 $f(x)$로 표기한다.

$\circ$$f(x)$는 보통 확률 질량 함수(probability mass function ; pmf), 확률 함수(probability function), 도수함수(frequency function), 확률 밀도 함수(probability density function) 이라고도 한다.

$\circ$이산형 확류변수 X의 확률 질량 함수(pmf) f(x)는 다음의 성질을 만족하는 함수이다.

$\circ$$X$를 실수공간의 부분집합인 S를 공간으로 갖는 확률 변수라 한다. 공간 $S$가 유한(finite)이거나 양의 정수들에 1:1 대응 관계를 갖는다면, 즉 S의 원소를 셀수있다면, 확률 변수 X를 이간형 확률 변수라 하고, X는 이산형 확률 분포를 갖는다고 한다.

a) $f(x)>0, x \in S$
b) $\displaystyle \sum_{x \in S}f(x)=1$
c) $\displaystyle P(X \in A) = \sum_{x \in A}f(x)$, 여기서$A\subset S$
$S$는 $X$의 공간(space) 혹은 받침/지지(support)라고 한다.

 

누적 분포 함수(cumulate distribution function ; cdf)

$\bullet$$F(x)=P(X \leq x), -\infty < x < \infty$

$F(x)$를 확률변수 $X$의 누적 분포함수 혹은 분포함수(distirubution function)라고 한다.

$\bullet$ $pdf$가 불연속적이라 할지라도 $cdf$는 항상 연속이다.

 

이산형 확률분포에서

$x$가 최소 $n$일 확률은 $1-F(n-1)$과 같다.

연속형 확률 분포에서

$x$가 최소 $t$일 확률은 $1-F(t)$과 같다.

$\blacksquare$

 

 

균일 분포(uniform distribution)

pmf가 공간위에 상수라면(즉, 모든 random variable에 대해 $p(x)$가 같은 값일 경우) cdf는 공간위에서 균일(uniform) 하다.

가령 m개의 모든 r.v에 대해 $\displaystyle f(x)=\frac{1}{m}$이다.$(x=1,2,3,\cdots,m)$

x의 cdf는 다음과 같다.

$$\begin{cases}0, &x<1\\\frac{k}{m}, &k\leq x \leq k+1, k=1,2, 
\cdots,m-1 \\ 1, & m\leq x \end{cases}$$




$\blacksquare$

 

초기하분포(hypergeometric distribution)

$\circ$ 공간$S$는 음이 아닌 정수 $X$들의 집합이며 $x$는 $x \leq n, n \leq N_1, n-x \leq N_2$를 만족한다.

이때 확률변수 $X$는 $N_1$중에서 뽑는 갯수를 말하며 이를 초기하분포라 한다.

$\circ$비복원 추출에서 $N$개 중에 $k$가 원하는 것이고 $n$번 추출 했을때 원하는것이 k개가 뽑히는 확률의 분포

 

가령 N개의 칩이 든 주머니에서 $N_1$개는 빨간칩이고 $N_2$개는 파란칩일때 n개의 칩을 비복원 추출시에 x개의 빨간칩이 뽑힐 확률은 아래와 같이 계산한다.

전사건 : ${}_N C_n$

목표사건: ${}_{N_1} C_x \cdot {}_{N_2} C_{n-x}$

$\displaystyle f(x)=P(X=x)= \frac{{}_{N_1} C_x \cdot {}_{N_2} C_{n-x}}{{}_N C_n}$

 

 

$\blacksquare$

 

상대도수 히스토그램(relative frequency histogram)

확률실험이 n회 독립적으로 반복된다 하고 $A = \{X=x\}$라 놓는다. 그러면 상대도수 $\displaystyle \frac {\mathcal N(A)}{n}$가 $f(x)$에 근사할것을 기대한다.

 

$\blacksquare$

 

수학적 기댓값(mathematical expectation)

$\circ$공간 $S$를 갖는 이산형 확률변수 $X$의 $pmf$가 $f(x)$이고 총합 

$\displaystyle \sum_{x \in S}u(x)f(x)$ (혹은 $\displaystyle \sum_{S}u(x)f(x)$ 으로 표기함) 

가 존재하면, 그 합을 $u(x)$의 수학적 기댓값 또는 기댓값(expected value)이라 하고  $E[u(x)]$로 표기한다. 즉. 

$$E[u(x)]= \sum_{x \in S}u(x)f(x)$$

 

$\circ$ 기댓값 $E[u(x)]$는 $f(x)=P(X=x), x \in S$ 을 가중치로 갖는 $u(x), x \in S$ 의 가중평균(weighted average)으로 생각 할 수 있다.

 

$\circ$ $E[u(x)]$ 의 일반적인 정의는 총합이 절대적으로 수렴(absolutely convergence)함을 요구한다. 즉,

$\displaystyle \sum_{x \in S} |u(x)|f(x)$

가 수렴하고 유한해야 $E[u(x)]$ 가 존재한다.



$\circ$ 수학적 기댓값 E가 존재할 경우 다음의 성질들을 만족시킨다.

(a) $c$가 상수이면 $E(c)=c$

(b) $c$가 상수이고 $u$가 함수이면

$\displaystyle E[cu(x)]=cE[u(x)]$

(c) $c_1$과 $c_2$가 상수이고, $u_1$ 과 $u_2$가 함수이면

$\displaystyle E[c_1u_1(x)+c_2u_2(x)]=c_1E[u_1(x)]+c_2E[u_2(x)]$

(d) $\displaystyle E\left[\sum_{i=1}^kc_iu_i(x)\right]=\sum_{i=1}^kc_iE[u_i(x)]$






확률공간 $X$도 함수로 표현 가능하다.

가령 $Y=u(X)$라 놓자. $Y$도 확률변수 이므로 pmf를 가질수있다.

예를들어 $f(x)= \frac{4-x}{6}$ 일때 $Y=X^2$의 pmf는 $g(y)=\frac{4-\sqrt y}{6},\; y=1,4,9$ 이다.

$X$와 $Y$의 평균을 각각 구해보겠다.

우선 $X$의 평균은

$\begin{matrix}
x=1 & & f(1)=\dfrac{1}{2}\\
x=2& \rightarrow &f(2)=\dfrac{1}{3}\\
x=3 & & f(3)=\dfrac{1}{6}\end{matrix}$

$\displaystyle \begin{align*}
\sum_{x\in S_x}x^2f(x)&=1^2\cdot\frac{1}{2}+2^2\cdot\frac{1}{3}+3^2\cdot\frac{1}{6}\\
&=\frac{10}{3}
\end{align*}$

 

그리고 $Y$의 평균은

$\begin{matrix}
x=1 & & f(1)=\dfrac{1}{2}\\
x=4& \rightarrow &f(2)=\dfrac{1}{3}\\
x=9 & & f(3)=\dfrac{1}{6}\end{matrix}$

$\displaystyle \begin{align*}
\sum_{x\in S_x}x^2f(x)&=1\cdot\frac{1}{2}+4\cdot\frac{1}{3}+9\cdot\frac{1}{6}\\
&=\frac{10}{3}
\end{align*}$


그러므로 아래 등식이 성립함을 알 수 있다.
$\displaystyle \mu_Y=\sum_{y\in S_Y}yg(y)=\sum_{x \in S_X}x^2f(x)=\frac{10}{3}$

이다.

즉, 아래의 공식이 성립한다.

$$\sum_{y\in S_Y}yg(y)=\sum_{x \in S_X}x^2f(x)$$

 

즉, 확률변수$X$의 집합과 $X$의 확률 $p(x)$이 주어젔을때 또다른 확률변수 $Y$와 $X$사이의 관계식이 주어진다면 $Y$의 평균을 구할 수 있다.



 

 

 

Comments