일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Hash
- union find
- Stored Procedure
- Brute Force
- 다익스트라
- String
- 스토어드 프로시저
- 이진탐색
- Trie
- MYSQL
- two pointer
- Two Points
- binary search
- DP
- Dijkstra
- SQL
- 그래프
- Today
- Total
codingfarm
피어슨 상관 계수(Pearson Correlation Coefficient) 본문
∙ (피어슨)상관 계수는 두 변수가 서로 (선형)상관관계를 가지는지 확인하는 척도이다.
∙ 1이나 -1에 가까우면 상관관계가 있다 보고 0이면 없다고 본다.
∙ [−1,1]을 벗어나지 않는다.
다음과 같이 정의된 ρ=ρ(X,Y) 를 피어스 상관계수(pearson correlation coefficient)라고 한다.
ρ=Cov(X,Y)σXσY=σXYσXσY,−1≤ρ≤1
Cov(X,Y)를 X와 Y의 공분산(covariance)라 한다.
Cov(X,Y)=E[(X−μX)(Y−μY)]=E(XY)−μXμY
E(XY)=μXμY+ρσXσY
X와 Y가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 X와 Y가 독립인것은 아니다.

ρ를 정의한 식에 대해 알아보자
μX=E(X),=μY=E(Y),σ2X=E[(X−μX)2],σ2Y=E[(Y−μY)2]
(a) u(X,Y)=(X−μX)(Y−μY) 라 두면
E[u(X,Y)]=E[(X−μX)(Y−μY)]=σXY=Cov(X,Y)
를 X와 Y의 공분산(covariance)라 한다.
(b) 표준편차 σX,σY>0이라면
ρ=Cov(X,Y)σXσY=σXYσXσY
를 X와 Y의 상관계수라 한다.
X의 평균(mean)과 분산(variance)는 결합 pmf(or pdf) 혹은 주변 pmf(or pdf)를 이용해서 푼다.
ex) 이산형의 경우
μX=E(X)=∑X∑Yxf(x,y)=∑xx[∑yf(x,y)]=∑xxfX(x)
공분산(Covariance)의 계산에는 joint pmf(or pdf)가 필요하다
공분산 E[u(x,y)]와 상관계수 ρ=Cov(X,Y)σXσY의 의미를 살펴보기전 2가지 유용한 식을 유도한다.
1)
Cov(X,Y)=E[(X−μX)(Y−μY)]=E(XY−μXY−μYX+μXμY)=E(XY)−μXE(Y)−μYE(X)+μXμY=E(XY)−μXμY−μXμY+μXμY=E(XY)−μXμY
2)
ρ=Cov(X,Y)σXσY=E(XY)−μXμYσXσY
E(XY)=μXμY+ρσXσY
즉, 두 확률변수의 곱의 기댓값은 각 확률변수들의 평균(mean)과 편차(deviation)를 통해서 구할 수 있다.
두 확률변수 X와 Y의 상관계수(Correlation Coefficient)ρ에 대해 알아보자.
1) ρ의 부호
ρ=∑X∑Y(x−μX)(y−μY)f(x,y)σXσY
∙ 분모는 항상 양수이다.
∙ 0≤f(x,y)≤1 이다.
∴ ρ의 부호를 결정하는 것은 x와 y, μX, μY이다.
ρ>0 | ρ<0 | ρ=0 |
x가 μX보다 크고 y가 μY보다 큰 혹은 x가 μX보다 작고 y가 μY보다 작은 (x,y)쌍이 아주 많을 경우 |
x가 μX보다 크고 y가 μY보다 작은 혹은 x가 μX보다 작고 y가 μY보다 큰 (x,y)쌍이 아주 많을 경우 |
모든 (x,y)쌍에 대해 x=μX그리고 y=μY일 경우 혹은 모든 항의 합이 0이 될 경우 |
2) −1≤ρ≤1
우선 임의의 (x,y)쌍들을 그래프 위에 그려보겠다.

수많은 점들의 분포를 일반식으로 간단하게 표현할수는 없다
그렇기에 모든 점들을 근사적으로 표현할 수 있는 직선방정식을 찾도록 한다.
이 방정식을 만드는 기준은
i) (μXμY)를 지난다.
ii) 모든 점으로부터의 거리의 평균값이 최소가 되는 기울기 b를 가진다.
위 조건을 만족하는 직선 방정식을 적으면
y=μY+b(x−μX)
이제 ii) 조건에 맞는 b를 구하면 된다.
임의의 점 (x0,y0)에서 직선 방정식 까지의 거리는
|y0−μY−b(x0−μX)|이다.
이 거리를 제곱한 값들의 평균을 취한 식을 K(b)로 지칭한다.
E{[(Y−μY)−b(X−μX)]2}=k(b)
최소제곱원리로 K(b)를 최소로 하는 b값을 찾는다.
K(b)=E[(Y−μY)2−2b(X−μX)(Y−μY)+b2(X−μX)2]=σ2Y−2bρσXσY+b2σ2X
를 b로 편미분하여 0으로 놓고 b를 구한다
K′(b)=−2ρσXσY+2bσ2X=0b=ρσYσX
K(b)는 최고차항의 계수가 양수인 b에 관한 2차식인데다가 K″이므로 위의 b는 K(b)를 최소로 만드는 식임을 알 수 있다.

따라서 최량 적합 직선(the line of best fit)의 형태인 최소 제곱 회귀 직선(least squares regression line)은
Y = \mu_Y = \rho \dfrac{\sigma_Y}{\sigma_X}(X - \mu_X)
가 된다.
여기서 \rho의 값에 따라 기울기가 결정된다.
또한 K(b)는 제곱의 기댓값이므로 모든 b에 대해서 음수가 아니어야 한다. 따라서 최소값도 양수이므로
\begin{align*} K \left( \rho \dfrac{\sigma_Y}{\sigma_X} \right) &= \sigma_Y^2 - 2\rho \dfrac{\sigma_Y}{\sigma_X}\rho \sigma_X \sigma_Y + \left( \rho \dfrac{\sigma_Y}{\sigma_X}\right)^2 \sigma_X^2\\ &=\sigma_Y^2 -2\rho^2\sigma_Y^2 + \rho^2 \sigma_Y^2 = \sigma_Y^2(1 - \rho^2) \geq 0 \end{align*}
그러므로 -1 \leq \rho \leq 1이 된다.
X와 Y가 독립이면 상관계수는 0이된다.
하지만 상관계수가 0이라고 X와 Y가 독립인것은 아니다.
아래 예로 확인해보자
'통계학 > 수리통계학' 카테고리의 다른 글
4.3 조건부 분포(Conditional Distribution) (0) | 2020.09.01 |
---|---|
이산형 이변량 분포(Bivariate Distribution of The Discrete Type) (0) | 2020.07.01 |
정규 분포(Normal Distribution) (0) | 2020.06.24 |
연속형 확률분포 - 카이제곱분포(chi-square distribution) (0) | 2020.04.30 |
연속형 확률분포 - 감마분포(The Gamma Distributions) (0) | 2020.04.23 |