상관분석은 두 변수 간에 어떤 선형적 관계를 가지는지를 분석하는 기법으로 상관계수를 이용하여 측정한다. 상관분석을 이해하기에 그 기초가 되는 분산과 공분산에 대해 알아보자. 평균(E, μ)이라는 개념의 설명은 생략하기로 하자. 우선 분산(Variance)은 1개의 ‘확률변수가 갖는 평균과 그 평균에서 벗어난 개개 원소들의 흐트러짐의 정도’를 의미하고 공분산(Covariance, Cov)은 2개의 확률변수의 상관 정도’를 나타내는 값이다.
위 그림 (a)는 양의 상관관계, (b)는 음의 상관관계, (c)는 무상관을 보여준다.
분산이란 하나의 변수가 갖는 평균에서의 흐트러짐의 정도라 정의할 수 있다. 확률변수 X의 분산(variance) 또는 X의 확률분포의 분산은 g(X)=(X−μ)의 평균으로 나타내고 Var(X) 또는 σ2X, σ2으로 표시한다. 이 때, X−μ를 관측값의 평균으로부터의 편차(devication) 이라고 한다. 이 내용을 정리하여 이산형 자료와 연속형 자료에서의 분산에 대한 정의는 다음과 같이 표현할 수 있습니다.
그렇다면 공분산의 이해를 위하여 어떤 두 확률변수 X, Y를 가정해 보자.
공분산은 하나의 변수가 갖는 평균에서의 흐트러짐의 정도를 표현하는 분산의 성질을 확장하여 두 확률변수 간의 분산에 대한 고찰이다. 공분산은 기존의 X의 분산 Var(X)=E((X−μ)2)에서 확률변수 X 만을 사용하는 것이 아니라 서로 다른 확률변수 X, Y를 사용하여 표현한다고 볼 수 있다. 만약 X 변수의 값이 상승하는 경향을 보였을때, Y의 값은 어떤 형태를 보일까?
X, Y는 독립사건
X,Y가 서로 관계없는 독립사건이라고 생각하면 (C) No relationship 같은 형태의 분포를 보일 것이다. 이때의 Cov(X,Y) = 0 이 된다. 공분산의 0 인 확률변수를 비상관 확률변수라 한다. 하지만 주의할 점은 역은 성립하지 않는다. 즉 X, Y가 독립이 아니더라도 공분산의 값은 0이 될 수 있다.
X가 증가할 때, Y도 증가
이때 X,Y는 서로 상관이 있는 변수이다. 인과가 아님을 주의하자. 즉, 서로 영향을 주는지 여부는 공분산으로 알 수 없다. 어떤 패턴의 관계를 보이는지만 알 수 있다. 위의 그림에서는 (a) Positive Relationship 같은 형태의 분포를 보인다. 즉, Cov(X,Y) > 0 이 된다.
X가 증가할 때, Y는 감소
위의 그림에서는 (b) Negative Relationship 같은 형태의 분포를 보이며, 이 때 공분산 Cov(X,Y) < 0 이다.
공분산 공식
실수 값을 지니는 2개의 확률변수 X 와 Y에 대해서 공분산 계산을 정리하면 아래와 같은 식이 된다.
이처럼 공분산을 이해하여야 하는 이유는 다음에 필자가 연재할 연관성분석 중 상관분석, IPA분석, 포지셔닝분석 등 각종 논문통계 뿐만 아니고 디지털마케팅분석에 사용될 분석방법의 기초가 되기 때문이다.
윗첨자 아래첨자 넣는 방법
첨자를 입력하는 방법은 기본모드에서 HTML문서로 모드를 변경하여야 한다.
HTML문서로 변경후, 본문 해당 내용 중 σ2X, σ2를 첨자 글로 변경하고자 한다면,
윗첨자는 <sup> 태그를 이용하여 σ<sup>2</sup>로 변경해주고 아래첨자는 <sub>태그를 이용하여 <sub>X</sub>로 변경하여 준다. 그 결과는, σ2X, 정리하면 윗첨자는 <sup>, </sup>를, 아랫첨자는 <sub>, </sub>를 사용하면 된다.
'통계 이야기' 카테고리의 다른 글
분산의 마법 (0) | 2023.12.13 |
---|---|
모집단과 표본 (0) | 2023.12.10 |
IPA분석과 ISA분석 (2) | 2023.12.01 |
마음을 표현하는 수, 변수 (0) | 2023.11.30 |