Notice
Recent Posts
Recent Comments
Link
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

codingfarm

피어슨 상관 계수(Pearson Correlation Coefficient) 본문

통계학/수리통계학

피어슨 상관 계수(Pearson Correlation Coefficient)

scarecrow1992 2020. 8. 14. 08:49

$\bullet$ (피어슨)상관 계수는 두 변수가 서로 (선형)상관관계를 가지는지 확인하는 척도이다.

$\bullet$ 1이나 -1에 가까우면 상관관계가 있다 보고 0이면 없다고 본다.

$\bullet$ $[-1,1]$을 벗어나지 않는다.

 

다음과 같이 정의된 $\rho = \rho (X,Y)$ 를 피어스 상관계수(pearson correlation coefficient)라고 한다.
$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y},\;\;\;\;\; -1 \leq \rho \leq 1$$

$Cov(X,Y)$를 $X$와 $Y$의 공분산(covariance)라 한다.

$Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]=E(XY)-\mu_X \mu_Y$
$E(XY) = \mu_X \mu_Y  + \rho \sigma_X \sigma_Y$

$X$와 $Y$가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 $X$와 $Y$가 독립인것은 아니다.

 

 

$\rho$를 정의한 식에 대해 알아보자

$\mu_X = E(X),\;\; =\mu_Y=E(Y),\;\;\; \sigma_X^2=E[(X-\mu_X)^2],\;\;\;\sigma_Y^2=E[(Y-\mu_Y)^2]$

 

(a) $u(X,Y) = (X-\mu_X)(Y-\mu_Y)$ 라 두면

$$E[u(X,Y)]=E[(X-\mu_X)(Y-\mu_Y)]=\sigma_{XY}=Cov(X,Y)$$

를 $X$와 $Y$의 공분산(covariance)라 한다.

(b) 표준편차 $\sigma_X, \sigma_Y>0$이라면

$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\dfrac{\sigma_{XY}}{\sigma_X \sigma_Y}$$

를 $X$와 $Y$의 상관계수라 한다.

$X$의 평균(mean)과 분산(variance)는 결합 pmf(or pdf) 혹은 주변 pmf(or pdf)를 이용해서 푼다.

ex) 이산형의 경우

$$\begin{align*}
\mu_X = E(X) & = \sum_X \sum_Y x f(x,y)\\
&=\sum_x x \left[ \sum_y f(x,y) \right] = \sum_x x f_X(x)
\end{align*}$$

 

공분산(Covariance)의 계산에는 joint pmf(or pdf)가 필요하다

공분산 $E[u(x,y)]$와 상관계수 $\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}$의 의미를 살펴보기전 2가지 유용한 식을 유도한다.

1) 

$$\begin{align*}
Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]&=E(XY - \mu_X Y -\mu_Y X + \mu_X \mu_Y)\\
&=E(XY)-\mu_XE(Y)-\mu_YE(X)+\mu_X \mu_Y\\
&=E(XY) - \mu_X \mu_Y - \mu_X \mu_Y + \mu_X \mu_Y \\ 
&= E(XY) - \mu_X \mu_Y
\end{align*}$$

 

2)

$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y} = \dfrac{E(XY) - \mu_X \mu_Y}{\sigma_X \sigma_Y}$$

$$E(XY) = \mu_X \mu_Y + \rho \sigma_X \sigma_Y$$

즉, 두 확률변수의 곱의 기댓값은 각 확률변수들의 평균(mean)과 편차(deviation)를 통해서 구할 수 있다.

 

 

 

두 확률변수 $X$와 $Y$의 상관계수(Correlation Coefficient)$\rho$에 대해 알아보자.

1) $\rho$의 부호

$$\rho = \dfrac{\sum_X\sum_Y(x-\mu_X)(y-\mu_Y)f(x,y)}{\sigma_X \sigma_Y}$$

$\bullet$ 분모는 항상 양수이다.

$\bullet$ $0 \leq f(x,y)\leq 1$ 이다.

$\therefore$ $\rho$의 부호를 결정하는 것은 $x$와 $y$, $\mu_X$, $\mu_Y$이다.

 

$\rho>0$ $\rho <0$ $\rho=0$
$x$가 $\mu_X$보다 크고 $y$가 $\mu_Y$보다 큰
혹은
$x$가 $\mu_X$보다 작고 $y$가 $\mu_Y$보다 작은
$(x,y)$쌍이 아주 많을 경우
$x$가 $\mu_X$보다 크고 $y$가 $\mu_Y$보다 작은
혹은
$x$가 $\mu_X$보다 작고 $y$가 $\mu_Y$보다 큰
$(x,y)$쌍이 아주 많을 경우
모든 $(x,y)$쌍에 대해
$x= \mu_X$그리고 $y=\mu_Y$일 경우
혹은
모든 항의 합이 0이 될 경우

 

 

2) $-1 \leq \rho \leq 1$

우선 임의의 $(x,y)$쌍들을 그래프 위에 그려보겠다.

 

수많은 점들의 분포를 일반식으로 간단하게 표현할수는 없다

그렇기에 모든 점들을 근사적으로 표현할 수 있는 직선방정식을 찾도록 한다.

이 방정식을 만드는 기준은

i) $(\mu_X \mu_Y)$를 지난다.

ii) 모든 점으로부터의 거리의 평균값이 최소가 되는 기울기 $b$를 가진다.

위 조건을 만족하는 직선 방정식을 적으면

$y=\mu_Y + b(x-\mu_X)$

이제 ii) 조건에 맞는 $b$를 구하면 된다.

임의의 점 $(x_0,y_0)$에서 직선 방정식 까지의 거리는

$|y_0 - \mu_Y - b(x_0 - \mu_X)|$이다.

이 거리를 제곱한 값들의 평균을 취한 식을 $K(b)$로 지칭한다.

$$E\{[(Y - \mu_Y)-b(X - \mu_X)]^2\}=k(b)$$

최소제곱원리로 $K(b)$를 최소로 하는 $b$값을 찾는다.

$$\begin{align*}
K(b) &=E[(Y-\mu_Y)^2-2b(X-\mu_X)(Y-\mu_Y)+b^2(X-\mu_X)^2]\\
&=\sigma_Y^2 - 2b \rho \sigma_X \sigma_Y + b^2 \sigma_X^2
\end{align*}$$

를 $b$로 편미분하여 $0$으로 놓고 $b$를 구한다

$$K'(b) = -2 \rho \sigma_X \sigma_Y + 2b \sigma_X^2=0\\
b = \rho \dfrac{\sigma_Y}{\sigma_X}$$

$K(b)$는 최고차항의 계수가 양수인 $b$에 관한 2차식인데다가 $K''(b) = 2\sigma_X^2 > 0$이므로 위의 $b$는 $K(b)$를 최소로 만드는 식임을 알 수 있다.

 

따라서 최량 적합 직선(the line of best fit)의 형태인 최소 제곱 회귀 직선(least squares regression line)은

$Y = \mu_Y = \rho \dfrac{\sigma_Y}{\sigma_X}(X - \mu_X)$

가 된다.

여기서 $\rho$의 값에 따라 기울기가 결정된다.

 

또한 $K(b)$는 제곱의 기댓값이므로 모든 $b$에 대해서 음수가 아니어야 한다. 따라서 최소값도 양수이므로

$$\begin{align*}
K \left( \rho \dfrac{\sigma_Y}{\sigma_X} \right) &= \sigma_Y^2 - 2\rho \dfrac{\sigma_Y}{\sigma_X}\rho \sigma_X \sigma_Y + \left( \rho \dfrac{\sigma_Y}{\sigma_X}\right)^2 \sigma_X^2\\
&=\sigma_Y^2 -2\rho^2\sigma_Y^2 + \rho^2 \sigma_Y^2 = \sigma_Y^2(1 - \rho^2) \geq 0
\end{align*} $$

그러므로 $-1 \leq \rho \leq 1$이 된다.

 

 

 

$X$와 $Y$가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 $X$와 $Y$가 독립인것은 아니다.

아래 예로 확인해보자

 

 

 

 

 

Comments