Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Archives
Today
Total
관리 메뉴

codingfarm

피어슨 상관 계수(Pearson Correlation Coefficient) 본문

통계학/수리통계학

피어슨 상관 계수(Pearson Correlation Coefficient)

scarecrow1992 2020. 8. 14. 08:49

(피어슨)상관 계수는 두 변수가 서로 (선형)상관관계를 가지는지 확인하는 척도이다.

1이나 -1에 가까우면 상관관계가 있다 보고 0이면 없다고 본다.

[1,1]을 벗어나지 않는다.

 

다음과 같이 정의된 ρ=ρ(X,Y) 를 피어스 상관계수(pearson correlation coefficient)라고 한다.
ρ=Cov(X,Y)σXσY=σXYσXσY,1ρ1

Cov(X,Y)XY의 공분산(covariance)라 한다.

Cov(X,Y)=E[(XμX)(YμY)]=E(XY)μXμY
E(XY)=μXμY+ρσXσY

XY가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 XY가 독립인것은 아니다.

 

 

ρ를 정의한 식에 대해 알아보자

μX=E(X),=μY=E(Y),σ2X=E[(XμX)2],σ2Y=E[(YμY)2]

 

(a) u(X,Y)=(XμX)(YμY) 라 두면

E[u(X,Y)]=E[(XμX)(YμY)]=σXY=Cov(X,Y)

XY의 공분산(covariance)라 한다.

(b) 표준편차 σX,σY>0이라면

ρ=Cov(X,Y)σXσY=σXYσXσY

XY의 상관계수라 한다.

X의 평균(mean)과 분산(variance)는 결합 pmf(or pdf) 혹은 주변 pmf(or pdf)를 이용해서 푼다.

ex) 이산형의 경우

μX=E(X)=XYxf(x,y)=xx[yf(x,y)]=xxfX(x)

 

공분산(Covariance)의 계산에는 joint pmf(or pdf)가 필요하다

공분산 E[u(x,y)]와 상관계수 ρ=Cov(X,Y)σXσY의 의미를 살펴보기전 2가지 유용한 식을 유도한다.

1) 

Cov(X,Y)=E[(XμX)(YμY)]=E(XYμXYμYX+μXμY)=E(XY)μXE(Y)μYE(X)+μXμY=E(XY)μXμYμXμY+μXμY=E(XY)μXμY

 

2)

ρ=Cov(X,Y)σXσY=E(XY)μXμYσXσY

E(XY)=μXμY+ρσXσY

즉, 두 확률변수의 곱의 기댓값은 각 확률변수들의 평균(mean)과 편차(deviation)를 통해서 구할 수 있다.

 

 

 

두 확률변수 XY의 상관계수(Correlation Coefficient)ρ에 대해 알아보자.

1) ρ의 부호

ρ=XY(xμX)(yμY)f(x,y)σXσY

분모는 항상 양수이다.

0f(x,y)1 이다.

ρ의 부호를 결정하는 것은 xy, μX, μY이다.

 

ρ>0 ρ<0 ρ=0
xμX보다 크고 yμY보다 큰
혹은
xμX보다 작고 yμY보다 작은
(x,y)쌍이 아주 많을 경우
xμX보다 크고 yμY보다 작은
혹은
xμX보다 작고 yμY보다 큰
(x,y)쌍이 아주 많을 경우
모든 (x,y)쌍에 대해
x=μX그리고 y=μY일 경우
혹은
모든 항의 합이 0이 될 경우

 

 

2) 1ρ1

우선 임의의 (x,y)쌍들을 그래프 위에 그려보겠다.

 

수많은 점들의 분포를 일반식으로 간단하게 표현할수는 없다

그렇기에 모든 점들을 근사적으로 표현할 수 있는 직선방정식을 찾도록 한다.

이 방정식을 만드는 기준은

i) (μXμY)를 지난다.

ii) 모든 점으로부터의 거리의 평균값이 최소가 되는 기울기 b를 가진다.

위 조건을 만족하는 직선 방정식을 적으면

y=μY+b(xμX)

이제 ii) 조건에 맞는 b를 구하면 된다.

임의의 점 (x0,y0)에서 직선 방정식 까지의 거리는

|y0μYb(x0μX)|이다.

이 거리를 제곱한 값들의 평균을 취한 식을 K(b)로 지칭한다.

E{[(YμY)b(XμX)]2}=k(b)

최소제곱원리로 K(b)를 최소로 하는 b값을 찾는다.

K(b)=E[(YμY)22b(XμX)(YμY)+b2(XμX)2]=σ2Y2bρσXσY+b2σ2X

b로 편미분하여 0으로 놓고 b를 구한다

K(b)=2ρσXσY+2bσ2X=0b=ρσYσX

K(b)는 최고차항의 계수가 양수인 b에 관한 2차식인데다가 K이므로 위의 bK(b)를 최소로 만드는 식임을 알 수 있다.

 

따라서 최량 적합 직선(the line of best fit)의 형태인 최소 제곱 회귀 직선(least squares regression line)은

Y = \mu_Y = \rho \dfrac{\sigma_Y}{\sigma_X}(X - \mu_X)

가 된다.

여기서 \rho의 값에 따라 기울기가 결정된다.

 

또한 K(b)는 제곱의 기댓값이므로 모든 b에 대해서 음수가 아니어야 한다. 따라서 최소값도 양수이므로

\begin{align*} K \left( \rho \dfrac{\sigma_Y}{\sigma_X} \right) &= \sigma_Y^2 - 2\rho \dfrac{\sigma_Y}{\sigma_X}\rho \sigma_X \sigma_Y + \left( \rho \dfrac{\sigma_Y}{\sigma_X}\right)^2 \sigma_X^2\\ &=\sigma_Y^2 -2\rho^2\sigma_Y^2 + \rho^2 \sigma_Y^2 = \sigma_Y^2(1 - \rho^2) \geq 0 \end{align*}

그러므로 -1 \leq \rho \leq 1이 된다.

 

 

 

XY가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 XY가 독립인것은 아니다.

아래 예로 확인해보자

 

 

 

 

 

Comments