일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 스토어드 프로시저
- union find
- SQL
- DP
- 이진탐색
- String
- Trie
- Stored Procedure
- MYSQL
- Dijkstra
- binary search
- two pointer
- Brute Force
- 다익스트라
- Two Points
- Hash
- 그래프
- Today
- Total
codingfarm
이산형 확률분포(Discrete Distribution)- 확률변수, 수학적 기댓값 본문
확률 변수(Random Variable)
$\bullet$ 표본 공간 $S$를 갖는 확률 실험이 주어질때, 각 원소 $s \in S$에 대해 오직 하나의 실수 $X(s)=x$를 대응시키는 함수 $X$를 확률 변수라 한다.
즉, 어떤 사건, 사상에 수치가 부여된 함수라고 볼 수 있다.
$\bullet$ X의 공간(space)는 실수의 집합 $\{x:X(s)=x, s\in S\}$이다.
$\bullet$ 표본공간 $S$가 수가 아닐때에 S의 기술을 편리하게 해준다
$\bullet$ 표본공간 $S$의 원소가 실수일 경우 $X(s)=s$이다. 그래서 $X$는 항등함수이고 $X$의 공간은 $S$이다.
■
이산형 확률 변수(random variables of the discrete type)
$\circ$이산형 확률변수 $X$에 대해 확률 $P(X=x)$를 보통 $f(x)$로 표기한다.
$\circ$$f(x)$는 보통 확률 질량 함수(probability mass function ; pmf), 확률 함수(probability function), 도수함수(frequency function), 확률 밀도 함수(probability density function) 이라고도 한다.
$\circ$이산형 확류변수 X의 확률 질량 함수(pmf) f(x)는 다음의 성질을 만족하는 함수이다.
$\circ$$X$를 실수공간의 부분집합인 S를 공간으로 갖는 확률 변수라 한다. 공간 $S$가 유한(finite)이거나 양의 정수들에 1:1 대응 관계를 갖는다면, 즉 S의 원소를 셀수있다면, 확률 변수 X를 이간형 확률 변수라 하고, X는 이산형 확률 분포를 갖는다고 한다.
a) $f(x)>0, x \in S$ |
■
누적 분포 함수(cumulate distribution function ; cdf)
$\bullet$$F(x)=P(X \leq x), -\infty < x < \infty$
$F(x)$를 확률변수 $X$의 누적 분포함수 혹은 분포함수(distirubution function)라고 한다.
$\bullet$ $pdf$가 불연속적이라 할지라도 $cdf$는 항상 연속이다.
이산형 확률분포에서
$x$가 최소 $n$일 확률은 $1-F(n-1)$과 같다.
연속형 확률 분포에서
$x$가 최소 $t$일 확률은 $1-F(t)$과 같다.
$\blacksquare$
균일 분포(uniform distribution)
pmf가 공간위에 상수라면(즉, 모든 random variable에 대해 $p(x)$가 같은 값일 경우) cdf는 공간위에서 균일(uniform) 하다.
가령 m개의 모든 r.v에 대해 $\displaystyle f(x)=\frac{1}{m}$이다.$(x=1,2,3,\cdots,m)$
x의 cdf는 다음과 같다.
$$\begin{cases}0, &x<1\\\frac{k}{m}, &k\leq x \leq k+1, k=1,2,
\cdots,m-1 \\ 1, & m\leq x \end{cases}$$
$\blacksquare$
초기하분포(hypergeometric distribution)
$\circ$ 공간$S$는 음이 아닌 정수 $X$들의 집합이며 $x$는 $x \leq n, n \leq N_1, n-x \leq N_2$를 만족한다.
이때 확률변수 $X$는 $N_1$중에서 뽑는 갯수를 말하며 이를 초기하분포라 한다.
$\circ$비복원 추출에서 $N$개 중에 $k$가 원하는 것이고 $n$번 추출 했을때 원하는것이 k개가 뽑히는 확률의 분포
가령 N개의 칩이 든 주머니에서 $N_1$개는 빨간칩이고 $N_2$개는 파란칩일때 n개의 칩을 비복원 추출시에 x개의 빨간칩이 뽑힐 확률은 아래와 같이 계산한다.
전사건 : ${}_N C_n$
목표사건: ${}_{N_1} C_x \cdot {}_{N_2} C_{n-x}$
$\displaystyle f(x)=P(X=x)= \frac{{}_{N_1} C_x \cdot {}_{N_2} C_{n-x}}{{}_N C_n}$
$\blacksquare$
상대도수 히스토그램(relative frequency histogram)
확률실험이 n회 독립적으로 반복된다 하고 $A = \{X=x\}$라 놓는다. 그러면 상대도수 $\displaystyle \frac {\mathcal N(A)}{n}$가 $f(x)$에 근사할것을 기대한다.
$\blacksquare$
수학적 기댓값(mathematical expectation)
$\circ$공간 $S$를 갖는 이산형 확률변수 $X$의 $pmf$가 $f(x)$이고 총합
$\displaystyle \sum_{x \in S}u(x)f(x)$ (혹은 $\displaystyle \sum_{S}u(x)f(x)$ 으로 표기함)
가 존재하면, 그 합을 $u(x)$의 수학적 기댓값 또는 기댓값(expected value)이라 하고 $E[u(x)]$로 표기한다. 즉.
$$E[u(x)]= \sum_{x \in S}u(x)f(x)$$
$\circ$ 기댓값 $E[u(x)]$는 $f(x)=P(X=x), x \in S$ 을 가중치로 갖는 $u(x), x \in S$ 의 가중평균(weighted average)으로 생각 할 수 있다.
$\circ$ $E[u(x)]$ 의 일반적인 정의는 총합이 절대적으로 수렴(absolutely convergence)함을 요구한다. 즉,
$\displaystyle \sum_{x \in S} |u(x)|f(x)$
가 수렴하고 유한해야 $E[u(x)]$ 가 존재한다.
$\circ$ 수학적 기댓값 E가 존재할 경우 다음의 성질들을 만족시킨다.
(a) $c$가 상수이면 $E(c)=c$
(b) $c$가 상수이고 $u$가 함수이면
$\displaystyle E[cu(x)]=cE[u(x)]$
(c) $c_1$과 $c_2$가 상수이고, $u_1$ 과 $u_2$가 함수이면
$\displaystyle E[c_1u_1(x)+c_2u_2(x)]=c_1E[u_1(x)]+c_2E[u_2(x)]$
(d) $\displaystyle E\left[\sum_{i=1}^kc_iu_i(x)\right]=\sum_{i=1}^kc_iE[u_i(x)]$
확률공간 $X$도 함수로 표현 가능하다.
가령 $Y=u(X)$라 놓자. $Y$도 확률변수 이므로 pmf를 가질수있다.
예를들어 $f(x)= \frac{4-x}{6}$ 일때 $Y=X^2$의 pmf는 $g(y)=\frac{4-\sqrt y}{6},\; y=1,4,9$ 이다.
$X$와 $Y$의 평균을 각각 구해보겠다.
우선 $X$의 평균은
$\begin{matrix}
x=1 & & f(1)=\dfrac{1}{2}\\
x=2& \rightarrow &f(2)=\dfrac{1}{3}\\
x=3 & & f(3)=\dfrac{1}{6}\end{matrix}$
$\displaystyle \begin{align*}
\sum_{x\in S_x}x^2f(x)&=1^2\cdot\frac{1}{2}+2^2\cdot\frac{1}{3}+3^2\cdot\frac{1}{6}\\
&=\frac{10}{3}
\end{align*}$
그리고 $Y$의 평균은
$\begin{matrix}
x=1 & & f(1)=\dfrac{1}{2}\\
x=4& \rightarrow &f(2)=\dfrac{1}{3}\\
x=9 & & f(3)=\dfrac{1}{6}\end{matrix}$
$\displaystyle \begin{align*}
\sum_{x\in S_x}x^2f(x)&=1\cdot\frac{1}{2}+4\cdot\frac{1}{3}+9\cdot\frac{1}{6}\\
&=\frac{10}{3}
\end{align*}$
그러므로 아래 등식이 성립함을 알 수 있다.
$\displaystyle \mu_Y=\sum_{y\in S_Y}yg(y)=\sum_{x \in S_X}x^2f(x)=\frac{10}{3}$
이다.
즉, 아래의 공식이 성립한다.
$$\sum_{y\in S_Y}yg(y)=\sum_{x \in S_X}x^2f(x)$$
즉, 확률변수$X$의 집합과 $X$의 확률 $p(x)$이 주어젔을때 또다른 확률변수 $Y$와 $X$사이의 관계식이 주어진다면 $Y$의 평균을 구할 수 있다.
'통계학 > 수리통계학' 카테고리의 다른 글
이산형 확률분포(Discrete Distribution) - 포아송분포(Poisson Distribution) (0) | 2020.04.14 |
---|---|
이산형 확률분포(Discrete Distribution) - 음이항분포(negative binomial distribution) (0) | 2020.04.12 |
이항분포표(Binomial Distribution Table) (0) | 2020.04.01 |
이산형 확률분포(Discrete Distribution)- 이항분포(The Binomial Distribution) (0) | 2020.04.01 |
이산형 확률분포(Discrete Distribution)- 특별한 수학적 기댓값 (0) | 2020.03.14 |