일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- String
- Hash
- binary search
- 스토어드 프로시저
- MYSQL
- Two Points
- Brute Force
- SQL
- two pointer
- DP
- Dijkstra
- Stored Procedure
- 그래프
- 이진탐색
- 다익스트라
- Trie
- union find
- Today
- Total
목록통계학/수리통계학 (15)
codingfarm
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/pJyaO/btqHO042JgO/qThHwIE0vtLCk1hFW1mqtk/img.png)
$X$와 $Y$가 공간 $S$에서 $joint\;pmf\;f(x,y)$를 가진다. marginal pmf는 공간 $S_X$와 $S_Y$에서 각각 $f_X(x),\;f_Y(y)$이다. 사건(event)$A = \{X=x\},\;B=\{Y=y\},\;(x,y) \in S$일때 $A \cap B = \{X=x, Y=y\}$ 이다. 왜냐하면 $$P(A \cap B) = P(X=x,\;Y=y)=f(x,y)$$ 그리고 $$P(B)=P(Y=y) = f_Y(y)>0\;\;\;(since\;Y \in S_Y)$$ 일 경우 사건 $B$가 주어질때 사건 $A$의 조건부확률(Conditional Probability)는 $$P(A|B)=\dfrac{P(A \cap B)}{P(B)}=\dfrac{f(x,y)}{f_Y(y)}$$..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cxLF2C/btqGFbsGd5W/0LbuzTdAZZ2dtv6kthwI1k/img.png)
$\bullet$ (피어슨)상관 계수는 두 변수가 서로 (선형)상관관계를 가지는지 확인하는 척도이다. $\bullet$ 1이나 -1에 가까우면 상관관계가 있다 보고 0이면 없다고 본다. $\bullet$ $[-1,1]$을 벗어나지 않는다. 다음과 같이 정의된 $\rho = \rho (X,Y)$ 를 피어스 상관계수(pearson correlation coefficient)라고 한다. $$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y},\;\;\;\;\; -1 \leq \rho \leq 1$$ $Cov(X,Y)$를 $X$와 $Y$의 공분산(covariance)라 한다. $Cov(X,Y) = E[(X-\mu_X)(..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bu097u/btqFeC1tI3G/f8ZqXPkPkVByQ4Yg3GaZ60/img.png)
이산형 이변량 분포(Bivariate Distribution of The Discrete Type) $\bullet$ 두개 이상의 확률변수에 대한 분포에 대해 다뤄본다 ex) 대학 입시에서 내신성적 $X$와 수능성적 $Y$의 관계 $\rightarrow$ 대학교성적 $Z$의 예측 가능 여부 확인 초등학생의 키(X), 몸무게(Y), 발사이즈(Z)간의 관계 $\rightarrow$ 성인이 됐을때의 키 $W$ 예측 가능한가? $X,Y$를 이산형 확률 공간에서 정의된 두개의 확률 변수라 하고 $X$와 $Y$에 대응하는 2차원 공간을 $S$라 하자. $X=x, ~Y=y$인 확률을 $f(x,y) = P(X=x, Y=y)$ 라 하면, $f(x,y)$는 $X$와 $Y$의 결합확률질량함수(joint probability..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/n36xe/btqE7Aaanoo/zFk762gvlOTZ22p4RUZ0i1/img.png)
정규분포 규모가 큰 모집단을 관측할 때 많은 변수들이 종모양의 상대분포를 가질경우, 이런 변수들을 근사하는데 유용한 확률분포이다. 확률 변수 $X$라 정규분포를 따를경우 $X$의 $pdf$는 아래와 같다. $$f(x) = \dfrac{1}{\sigma \sqrt{2\pi}} \exp{\left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]},~~~~~~-\infty
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bzMVPa/btqDOkgMoec/hRD06DFik4nfkclIAHJBf0/img.png)
카이제곱 분포는 감마분포에서 $\theta=2,\;\;\alpha=\dfrac{r}{2}\;(r\;is\;positive\;integer)$을 가지는 특수한 분포를 가리킨다. 확률변수 $X$의 $pdf$는 $$f(x)=\frac{1}{\Gamma(r/2)2^{r/2}}x^{(r/2)-1}e^{-x/2}\;\;\;\;,0 < x < \infty$$ $X$는 자유도(degree of freedom) $r$의 카이제곱분포를 따른다 하고 $\chi^2(r)$이라 표기한다. 평균과 분산 $$\mu=r\;\;\;\;\;,\sigma^2=\alpha \theta^2=2r$$ 자유도 $r$과 $x$값에 대한 카이제곱 $cdf$ $$F(x)= \int_{0}^{x} \frac{1}{\Gamma(r/2)2^{r/2}}w^..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b7j3W0/btqDOHP9cTy/OPUDuphduUWaH6fmiSJcZ1/img.png)
$\bullet$ 평균 $\lambda$를 갖는 (근사)포아송과정에서 첫발생이 일어날때까지의 시간/간격은 지수분포를 가진다. $\bullet$ $\alpha$개의 발생이 일어날때까지 시간/공간을 $w$라 할때 확률변수 $w$는 감마분포를 따른다. 감마분포의 $pdf$, $cdf$, 특성값 $$f(w)=\dfrac{\lambda(\lambda w)^{\alpha-1}}{(\alpha-1)!}e^{-\lambda w}$$ $$F(w)=1-\sum_{k=0}^{\alpha-1}\dfrac{(\lambda w)^ke^{-\lambda w}}{k!}$$ 시간을 $x$로 치환하고 감마함수로 표현하면 $$f(x)=\dfrac{1}{\Gamma(\alpha) \theta^\alpha}x^{\alpha-1}e^{-x/\..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/n8n7W/btqDE0gJCNX/uVNuvUx8oVDfepRfr6W50k/img.png)
지수 분포(Exponential Distributions) 이산형 확률변수의 포아송분포와 관련된 연속형 분포에 대해 알아보겠다. 주어진 구간에서 발생건수는 포아송분포를 갖는 이산형 확률변수이다. 여기서 연속되는 발생 사이의 대기시간은 연속형의 확률변수이다. 확률변수 $X$가 지수분포(exponential distribution)을 가질경우 확률변수 $X$는 사건이 처음 발생하는 시간,공간이 되며, $\theta$는 다음 사건이 발생하는 시간적, 공간적 평균길이 일때 $X$의 $pdf$는 모수 $\theta > 0$에 대해 $$f(x)=\dfrac{1}{\theta}e^{-x/\theta},\;\;\;\;0\leq x < \infty$$ 지수분포의 평균과 분산은 $$\begin{align*} \mu&=\t..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dyO42N/btqDzj91iB6/nR9wCIhkFovr1F8FSoQRSk/img.png)
연속형 확률분포(Continuous Distribution)-연속형 확률변수(Continuous Random Variables of The Continuous Type ) 구간 혹은 구간들의 합인 공간 $S$를 가지는 연속형 확률변수 $X$의 $pdf$는 다음의 조건을 만족하는 적분 가능한함수 $f(x)$이다. (a) $f(x)>0,\;\;\;\;x \in S$ (b) $\int_S f(x) dx=1$ (c) $(a,b) \subseteq S$ 이라면 사상$\{a
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bg1uCk/btqDohSask4/Fir7Io6DYBO1MN6ZpYkmAk/img.png)
모수(population parameter) 모집단의 특성을 나타내는 수치이다. 포아송 분포에서 모수의 예는 9시에서 10시 사이에 교환대에 울리는 발신음의 수, 100feet 길이의 전선줄에 앉아있는 새의 수, 정오 12시에서 오후 2시까지 매표소에 도착하는 고객의 수, 어떤책의 한페이지에 나타난 오타의 수 등이 있다. 즉, 포아송 분포에서의 모수는 '단위시간 또는 단위공간에서 평균 발생 횟수' 이다. 포아송분포에서 모수는 수학기호 $\lambda$로 표시한다. 포아송분포(Poisson Distribution) 포아송분포는 단위시간, 단위공간 안에 어떤사건이 발생하는 평균 횟수 $\lambda$가 주어질 경우 사건이 발생하는 횟수를 확률변수 $x$로 두었을때의 이산 확률 분포이다. 주어진 연속구간에서 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/erf6M8/btqDoTIMZF3/cFrbfqsEkw7VyRoCBhbcVK/img.png)
음이항분포는 베르누이 시행을 미리정한 성공횟수 $r$회가 될때까지 반복 시행할때 확률변수 $X$가 나타내는 분포를 말한다. $pmf$는 아래와 같다. $$g(x)={}_{x-1}C_{r-1}p^{r}(1-p)^{x-r}=_{x-1}C_{r-1}p^{r}q^{x-r},\;\;\;x=r,r+1\cdots$$ 음이항분포는 $n$번의 시행(여러번의 베르누이 독립시행)에서 $n-1$번의 실패에 대한 확률을 구하는 것이다. 베르누이 시행을 독립으로 반복하는 확률실험에서 $X$를 $r$회 성공하는데 필요한 시행 횟수라 하면, 확률의 곱셈법칙에 의해 $X$의 $pmf$ $g(x)$는 $x-1$번째의 시행까지에서 정확하게 $r-1$회 성공할 확률 $${}_{x-1}C_{r-1}p^{r-1}(1-p)^{x-r}=_{x-1..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dIhNoi/btqC9xGk7Su/mykXD1Ux92QAHSrWnxirvK/img.png)
https://www.statisticshowto.com/tables/binomial-distribution-table/#100
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/boneHX/btqC78mY6Pc/jIvZqzkJGn8Akykr0wRVq0/img.png)
어떤 사건들이 베르누이 시행으로 $n$번 발생되며 성공확률이 $p$일 경우 확률 변수 $x$를 성공 횟수로 두면 $x$는 이항분포를 따르며 아래의 개념들이 성립한다. $$f(x)={}_n C_x p^x(1-p)^{n-x}$$ $$\mu = np$$ $$\sigma^2 = npq$$ 베르누이 실험(bernoulli experiment) $\circ \;$ 실험의 결과가 상호배타적이고 전체를 포괄하는 두 결과중 하나로 나타내는 확률실험 ex) 하나의 동전을 던져 앞면과 뒷면을 관찰하는 실험, 남$\cdot$여로 구별되는 신생아의 성별, 양$\cdot$부량 으로 판정되는 품질검사 $\circ \;$성공확률을 $p$, 실패확률을 $q$로 두면 $q=1-p$이고 베르누이 실험이 시행때마다 성공의 확률 $p$가 같..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/u32eZ/btqCGP9lfxz/nvd8JCZiQ2bsFs1kuMlqK1/img.png)
$\circ$확률변수 $X$가 공간 $\displaystyle S=\{u_1,u_2,\cdots,u_t\}$ 에서 $pmf$ $f(x)$를 갖고, 각각의 확률이 $P(X=u_i)=f(u_i)>0$ 이고 $\displaystyle \sum_{x \in S}f(x)=1$ 일때 확률변수 $X$의 평균(mean)은 아래와 같다. $$\mu=\sum_{x \in S}xf(x)=u_1f(u_1)+u_2f(u_2)+\cdots u_kf(u_k)$$ 적률(moment) 확률변수 $X$의 $pmf$가 $f(x)$일 때 $a$에 관한 시스템의 $n$차 적률은 아래와 같다. $$\sum_{x\in S}(x-a)^nf(x)$$ $X$의 평균은 원점에 대한 1차적률이다. $$\sum_{x\in S}xf(x)$$ 평균에 관한 2..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/rxGRj/btqCz5YbOzw/TYgf3HaFUGX4jPqcimFKm0/img.png)
확률 변수(Random Variable) $\bullet$ 표본 공간 $S$를 갖는 확률 실험이 주어질때, 각 원소 $s \in S$에 대해 오직 하나의 실수 $X(s)=x$를 대응시키는 함수 $X$를 확률 변수라 한다. 즉, 어떤 사건, 사상에 수치가 부여된 함수라고 볼 수 있다. $\bullet$ X의 공간(space)는 실수의 집합 $\{x:X(s)=x, s\in S\}$이다. $\bullet$ 표본공간 $S$가 수가 아닐때에 S의 기술을 편리하게 해준다 $\bullet$ 표본공간 $S$의 원소가 실수일 경우 $X(s)=s$이다. 그래서 $X$는 항등함수이고 $X$의 공간은 $S$이다. 한마리의 실험용 쥐를 무작위로 무리에서 꺼내 쥐의 성을 관찰하는 확률 실험에서 표본공간은 $S=\{female,m..