일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Brute Force
- 다익스트라
- 그래프
- Dijkstra
- Two Points
- binary search
- DP
- Trie
- two pointer
- Stored Procedure
- Hash
- 이진탐색
- 스토어드 프로시저
- SQL
- String
- MYSQL
- union find
- Today
- Total
codingfarm
피어슨 상관 계수(Pearson Correlation Coefficient) 본문
$\bullet$ (피어슨)상관 계수는 두 변수가 서로 (선형)상관관계를 가지는지 확인하는 척도이다.
$\bullet$ 1이나 -1에 가까우면 상관관계가 있다 보고 0이면 없다고 본다.
$\bullet$ $[-1,1]$을 벗어나지 않는다.
다음과 같이 정의된 $\rho = \rho (X,Y)$ 를 피어스 상관계수(pearson correlation coefficient)라고 한다.
$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y},\;\;\;\;\; -1 \leq \rho \leq 1$$
$Cov(X,Y)$를 $X$와 $Y$의 공분산(covariance)라 한다.
$Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]=E(XY)-\mu_X \mu_Y$
$E(XY) = \mu_X \mu_Y + \rho \sigma_X \sigma_Y$
$X$와 $Y$가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 $X$와 $Y$가 독립인것은 아니다.
$\rho$를 정의한 식에 대해 알아보자
$\mu_X = E(X),\;\; =\mu_Y=E(Y),\;\;\; \sigma_X^2=E[(X-\mu_X)^2],\;\;\;\sigma_Y^2=E[(Y-\mu_Y)^2]$
(a) $u(X,Y) = (X-\mu_X)(Y-\mu_Y)$ 라 두면
$$E[u(X,Y)]=E[(X-\mu_X)(Y-\mu_Y)]=\sigma_{XY}=Cov(X,Y)$$
를 $X$와 $Y$의 공분산(covariance)라 한다.
(b) 표준편차 $\sigma_X, \sigma_Y>0$이라면
$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\dfrac{\sigma_{XY}}{\sigma_X \sigma_Y}$$
를 $X$와 $Y$의 상관계수라 한다.
$X$의 평균(mean)과 분산(variance)는 결합 pmf(or pdf) 혹은 주변 pmf(or pdf)를 이용해서 푼다.
ex) 이산형의 경우
$$\begin{align*}
\mu_X = E(X) & = \sum_X \sum_Y x f(x,y)\\
&=\sum_x x \left[ \sum_y f(x,y) \right] = \sum_x x f_X(x)
\end{align*}$$
공분산(Covariance)의 계산에는 joint pmf(or pdf)가 필요하다
공분산 $E[u(x,y)]$와 상관계수 $\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}$의 의미를 살펴보기전 2가지 유용한 식을 유도한다.
1)
$$\begin{align*}
Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]&=E(XY - \mu_X Y -\mu_Y X + \mu_X \mu_Y)\\
&=E(XY)-\mu_XE(Y)-\mu_YE(X)+\mu_X \mu_Y\\
&=E(XY) - \mu_X \mu_Y - \mu_X \mu_Y + \mu_X \mu_Y \\
&= E(XY) - \mu_X \mu_Y
\end{align*}$$
2)
$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y} = \dfrac{E(XY) - \mu_X \mu_Y}{\sigma_X \sigma_Y}$$
$$E(XY) = \mu_X \mu_Y + \rho \sigma_X \sigma_Y$$
즉, 두 확률변수의 곱의 기댓값은 각 확률변수들의 평균(mean)과 편차(deviation)를 통해서 구할 수 있다.
두 확률변수 $X$와 $Y$의 상관계수(Correlation Coefficient)$\rho$에 대해 알아보자.
1) $\rho$의 부호
$$\rho = \dfrac{\sum_X\sum_Y(x-\mu_X)(y-\mu_Y)f(x,y)}{\sigma_X \sigma_Y}$$
$\bullet$ 분모는 항상 양수이다.
$\bullet$ $0 \leq f(x,y)\leq 1$ 이다.
$\therefore$ $\rho$의 부호를 결정하는 것은 $x$와 $y$, $\mu_X$, $\mu_Y$이다.
$\rho>0$ | $\rho <0$ | $\rho=0$ |
$x$가 $\mu_X$보다 크고 $y$가 $\mu_Y$보다 큰 혹은 $x$가 $\mu_X$보다 작고 $y$가 $\mu_Y$보다 작은 $(x,y)$쌍이 아주 많을 경우 |
$x$가 $\mu_X$보다 크고 $y$가 $\mu_Y$보다 작은 혹은 $x$가 $\mu_X$보다 작고 $y$가 $\mu_Y$보다 큰 $(x,y)$쌍이 아주 많을 경우 |
모든 $(x,y)$쌍에 대해 $x= \mu_X$그리고 $y=\mu_Y$일 경우 혹은 모든 항의 합이 0이 될 경우 |
2) $-1 \leq \rho \leq 1$
우선 임의의 $(x,y)$쌍들을 그래프 위에 그려보겠다.
수많은 점들의 분포를 일반식으로 간단하게 표현할수는 없다
그렇기에 모든 점들을 근사적으로 표현할 수 있는 직선방정식을 찾도록 한다.
이 방정식을 만드는 기준은
i) $(\mu_X \mu_Y)$를 지난다.
ii) 모든 점으로부터의 거리의 평균값이 최소가 되는 기울기 $b$를 가진다.
위 조건을 만족하는 직선 방정식을 적으면
$y=\mu_Y + b(x-\mu_X)$
이제 ii) 조건에 맞는 $b$를 구하면 된다.
임의의 점 $(x_0,y_0)$에서 직선 방정식 까지의 거리는
$|y_0 - \mu_Y - b(x_0 - \mu_X)|$이다.
이 거리를 제곱한 값들의 평균을 취한 식을 $K(b)$로 지칭한다.
$$E\{[(Y - \mu_Y)-b(X - \mu_X)]^2\}=k(b)$$
최소제곱원리로 $K(b)$를 최소로 하는 $b$값을 찾는다.
$$\begin{align*}
K(b) &=E[(Y-\mu_Y)^2-2b(X-\mu_X)(Y-\mu_Y)+b^2(X-\mu_X)^2]\\
&=\sigma_Y^2 - 2b \rho \sigma_X \sigma_Y + b^2 \sigma_X^2
\end{align*}$$
를 $b$로 편미분하여 $0$으로 놓고 $b$를 구한다
$$K'(b) = -2 \rho \sigma_X \sigma_Y + 2b \sigma_X^2=0\\
b = \rho \dfrac{\sigma_Y}{\sigma_X}$$
$K(b)$는 최고차항의 계수가 양수인 $b$에 관한 2차식인데다가 $K''(b) = 2\sigma_X^2 > 0$이므로 위의 $b$는 $K(b)$를 최소로 만드는 식임을 알 수 있다.
따라서 최량 적합 직선(the line of best fit)의 형태인 최소 제곱 회귀 직선(least squares regression line)은
$Y = \mu_Y = \rho \dfrac{\sigma_Y}{\sigma_X}(X - \mu_X)$
가 된다.
여기서 $\rho$의 값에 따라 기울기가 결정된다.
또한 $K(b)$는 제곱의 기댓값이므로 모든 $b$에 대해서 음수가 아니어야 한다. 따라서 최소값도 양수이므로
$$\begin{align*}
K \left( \rho \dfrac{\sigma_Y}{\sigma_X} \right) &= \sigma_Y^2 - 2\rho \dfrac{\sigma_Y}{\sigma_X}\rho \sigma_X \sigma_Y + \left( \rho \dfrac{\sigma_Y}{\sigma_X}\right)^2 \sigma_X^2\\
&=\sigma_Y^2 -2\rho^2\sigma_Y^2 + \rho^2 \sigma_Y^2 = \sigma_Y^2(1 - \rho^2) \geq 0
\end{align*} $$
그러므로 $-1 \leq \rho \leq 1$이 된다.
$X$와 $Y$가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 $X$와 $Y$가 독립인것은 아니다.
아래 예로 확인해보자
'통계학 > 수리통계학' 카테고리의 다른 글
4.3 조건부 분포(Conditional Distribution) (0) | 2020.09.01 |
---|---|
이산형 이변량 분포(Bivariate Distribution of The Discrete Type) (0) | 2020.07.01 |
정규 분포(Normal Distribution) (0) | 2020.06.24 |
연속형 확률분포 - 카이제곱분포(chi-square distribution) (0) | 2020.04.30 |
연속형 확률분포 - 감마분포(The Gamma Distributions) (0) | 2020.04.23 |