본문 바로가기

통계 이야기

분산의 마법

어떤 현상이나 사실에 대해 그 것이 가지고 있는 본래의 그 무엇인가를 발견해 내기 위해 자료를 수집하고 분석한다. 데이타(data)의 홍수속에 살고 있는 이 시대에 그 data가 갖는 속성 중에 평균과 분산이라는 것이 있고 그 와 형태는 다르지만 분산의 자녀격인 표준편차라는 것이 있다. 잠깐 여기서 평균과 분산 그리고 표준편차에 대해 들여다보자.

 

평균(average, mean)평균이라는 개념은 산술평균, 기하평균, 조화평균 등이 있는데 이 중에 보통 평균이라 하면 산술평균을 의미한다.

 

mean calcualtion formula

분산(Variance)이란 하나의 변수가 갖는 평균에서의 흐트러짐의 정도라 정의할 수 있다. 확률변수 X의 분산 (variance) 또는 X의 확률분포의 분산은 g(X)=(X−μ)의 평균으로 나타내고 Var(X) 또는 σ2X, σ2으로 표시하고 표준편차(Deviation)도 아래 도식과 같다.

 

분산이란 정의는 알겠는데 그런데 그게 무엇에 쓰이는 물건이란 말인가? 흐트러짐의 정도가 갖는 의미는 무엇일까? 어디서 어떻게 흐트려졌다는 말인가? 그것은 데이타를 구성하는 각 요소들이 그 데이타의 평균으로부터 떨어져 있는 정도를 말한다. 평균의 개념은 그 데이타가 갖는 개개요소들의 성격을 설명해주지 못하는 단점(?)이 있다. 이런 단점을 극복하기 위해 발견된 개념이 분산이다.

 

분산은 그 데이타가 가지고 있는 본질적인 속성을 보여주는데 중심이나 평균에서 얼마만큼 독특한 요소들을 포함하고 있는지 이상치의 분포는 어떤지에 대한 정보를 제공한다. 따라서 이러한 데이타의 속성을 보여주는 분산을 이용한 많은 연구들이 이루어지고 있다. 이 분산의 개념을 이용하여 집단이 얼만큼 유사한지 유의미하게 다른 집단인지 아니면 서로 영향을 주는 집단인지 아닌지 등에 대한 분석을 가능하게 하는 도구로서 심리학, 소비자행동, 마케팅 전략 등을 세우는데 도움을 준다.

 

상관분석: 두 집단간의 관련성 분석
판변분석: 집단간의 차이에 대한 분석으로 구분지어 나누는 분석
군집분석: 집단간의 동질성에 대한 분석으로 묶어 내는 분석
평균분석: 두 집단 이상 평균의 차이에 대한 유의성 분석
분산분석: 세 집단 이상의 평균 차이 분석 
회귀분석: 변인 간 영향관계 분석
구조방정식분석: 구조적인 방정식의 경로분석
포지셔닝분석: 제품이나 서비스에 대한 소비자의 심리적 위치를 분석
IPA분석: 제품이나 서비스의 중요도와 만족도 비교 매트릭스 분석
Meta분석: 중요 요소들에 대한 가중치 부여로 최적의 해법 분석
AHP: 사실이나 사건 등에 대한 우선순위 또는 요소들의 중요도 등 산정하여 비교 분석을 통해 의사결정

외 기타 등등

 

이어지는 글에서 통계분석 방법에 분산이라는 어떻게 쓰이는지 알아보도록 하자.

'통계 이야기' 카테고리의 다른 글

모집단과 표본  (0) 2023.12.10
IPA분석과 ISA분석  (2) 2023.12.01
마음을 표현하는 수, 변수  (0) 2023.11.30
공분산에 대해  (2) 2023.11.27