본문 바로가기

통계 이야기

모집단과 표본

통계(Statistics)라는 것은 '어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자로 나타냄. 또는 그런 것'이라고 표준국어대사전에 정의되어 있다(https://stdict.korean.go.kr/m/search/searchView.do)

 

국립국어원 표준국어대사전

 

stdict.korean.go.kr

쉽게 말하면 농부가 벼, 고구마, 양파, 마늘, 고추농사를 한다고 하자. 해마다 종류마다 들어가는 종자의 양과 수확되어질 양을 미리 예측 가능하다. 반대로 올 해 쌀 100가마를 수확하기 위해서는 논 몇 마지기에 모 몇 판을 심어야 될지를 계산한다. 이러한 계산이 가능한 것은 어찌보면 수학의 공이라 할 수 있다. 그렇다. 수학적으로 계산해서 몇 포기 심어 몇 가마 수확했다는 것은 산수로도 가능한 영역이다.

 

하지만 반대로 논 몇 마지기에 모 몇 판을 심으면 벼 수확이 얼마가 될 것이라는 것은 가정이고 추정이다. 해마다 하는 일이라 직관 또는 습관대로 어림잡아 계산해도 우리네 농부님들의 계산법은 그닥 틀려보이지 않는다. 하늘이 돕는다면 말이다.

 

여기서 직관과 습관이 하늘의 도움이 해마다 일관성이 있다면 어림계산법에 따라 수확량은 일정할 것으로 보인다.  하지만 직관과 습관이라는 것도 추정이요 가정이며, 하늘의 도움 또한 일관성이 없는 변수이며 일정한 수확량을 올리기 위해 고정되어야 할 변수들은 이외에도 많다. 일조량, 건기 우기의 강우량, 병충해, 토질, 천재지변 등 예측 불가능한 변수들.

 

이러한 모든 것들을 무엇으로 표현할 수 있는가? 바로 수학을 통한 통계다. 단순히 농사에 대해 통계적 적용을 단순히 설명하였으나 이외에 무수히 많은 다양한 현상을 수치화해서 표현하는 방법속에서 통계는 더욱 발전해오고 있다.

어떤 현상이나 대상이 가지는 수치적 특성들을 표현하기 위해 다양한 정의가 이루어지고 있고 그 중에 특정 집단을 표현하는 용어가 있는데 그 전체 집단에 대한 표현으로 모집단이라는 것이 있다. 

 

모집단은  어떤 정보를 얻기 위해서 선택 된 집단 전체 또는 특정 연구 결과가 일반화 되어 지는 전체 집단을 뜻한다.

모집단의 특성을 나타내는 것으로 모수, 모평균, 모분산, 모표준편차 등이 있고 있고 표본은 전체집단에서 일정한 규칙에 따라 또는 임의로 뽑아(추출) 낸 모집단의 부분집합이다.

 

모집단과 표본

 

모집단이 대단히 커서 그 특성을 설명하기 어려울 때 통계는 모집단에서 일정한 수의 표본을 추출하여 표본으로 부터 측정된 일정한 특성치들로부터 모집단을 추정하게 되는데 이러한 학문이 바로 통계학이다. 통계학은 바로 모집단과 표본과의 관계를 설명하기 위해 연구되어져 왔고 이런 모집단의 특성을 추청하기 위해서는 추출될 표본의 크기와 표본을 추출하는 방법이 중요하다.

 

표본추출과정

 

이러한 표본추출 과정을 통해 정해진 표본을 추출하게 되는데 여기서 흔히 여론조사에서 일반적으로 사용되는 표본의 크기를 결정하는 공식은 다음과 같다.

 

e = 표본 허용오차

p = 이항분포(지지, 성공)확률

q = 이항분포(반대, 실패)확률

Z = 신뢰수준

 

표본수 추출공식:

 

이 공식을 대입하여 간단한 표본수를 계산해 보면 다음과 같다.

 

 

우리가 신문이나 지상파방송에서 주로 많이 듣는 여론조사의 경우가 이러한 공식으로 표본을 추출하여 여론조사를 실시한 결과임을 알 수 있다. 모집단의 모수 즉, 평균이나 분산, 표준편차 등을 올바르게 추정하기 위해서는 올바른 표본추출이 우선되어야 함을 알 수 있다.

'통계 이야기' 카테고리의 다른 글

분산의 마법  (0) 2023.12.13
IPA분석과 ISA분석  (2) 2023.12.01
마음을 표현하는 수, 변수  (0) 2023.11.30
공분산에 대해  (2) 2023.11.27