확률통계론_2_좋은 표본의 조건, 신뢰구간
Review
저번시간에는 기본적인 용어와 조사를 할 때 대부분 표본조사를 하게 되는 이유(표본조사의 장점)에 대하여 알아봤습니다. 그에 이어서 좋은 표본 조사를 하기 위해서는 어떻게 해야할까요?
좋은 표본과 안좋은 표본
좋은 표본이란 무엇일까요? 표본 조사를 하는 이유에 대해서 다시 생각해봅시다.
전체의 특성을 일부를 통해서 추측을 하기 위해서 표본 조사를 합니다.
좋은 표본을 위해 줄여야 할 요소들
신뢰도와 타당도 (Reliability & Validity)
수업시간에는 언급하시지 않은 부분이지만 자세한 이야기들을 설명하기 위해 신뢰도와 타당도에 대한 이야기를 먼저 해보겠습니다.
신뢰도와 타당도를 이야기 할 때 가장 많이 쓰는 비유는 과녁에 비유를 하여 표현하는 것이라고 합니다.
한번 볼까요?
보시면 대략 무슨 이야기를 하고 있는지 알겠죠?
비교적 설명하기 쉬운 신뢰도에 관한 이야기를 먼저 하겠습니다.
신뢰도
과녁 그림에서 3, 4번의 경우 신뢰도가 높은 표본이라고 할 수 있습니다. 타당성과는 별개로 얼마나 일관된 데이터를 가르키고 있는가?에 관한 척도를 신뢰도라고 볼 수 있겠습니다.
기존의 표본이 충분한 크기로 신뢰도가 높다면 표본을 늘리게 되어도 일관된 데이터를 가르킬 확률이 높습니다.
(표본의 크기가 커졌는데 신뢰도가 높다면 실제로 무언가를 가르킨다고 더 확신할 수 있겠죠?)
타당도
과녁 그림에서 2,4번의 경우 타당도가 높다고 표현을 하지만, 타당도는 해당 데이터가 가리키는 대상이 조사자가 알고자 하던 것과 일치하는 정도라고 할 수 있습니다. 맞추고자하는 과녁이 아닌 다른 과녁에 맞은 탄흔들을 표본에 포함 시키면 타당도가 떨어진다고 생각하면 간단할 듯 합니다.
좋은 표본 조사라는건 모집단에 포함 된 표본들을 골고루 뽑아야 이루어질 수 있습니다. 이 이야기는 모집단에 포함 되지 않은 표본들은 배제를 하는 것이 맞다는 이야기와 같구요.
Bias (경향성, 치우쳐짐)
간단하게 말하면 신뢰도는 높지만 타당성이 떨어지는 경우에는 편차(편의)가 있는 표본이다, biased 돼있다고 할 수 있습니다.
특정 집단에서 뽑은 표본들이 또 하나의 공통적 특성을 가지게 되면 표본 조사가 부정확해질 수 있습니다.
ex) 전국 직장인의 연봉에 관한 설문조사에서 표본조사를 부유한 동네에서만 추출한 경우가 있을 수 있다.
Lack of Precision (정확도의 결핍)
간단하게 말하면 정확도의 결핍, 부족이라고 할 수 있죠. 전체적인 통계가 예상되는 방향과 맞지 않았을 때를 가르키는 말입니다.
오차의 종류
Sampling Errors & Non-Sampling Errors (표본 오차와 비표본 오차)
짧게 잠깐 짚고 넘어가는 항목입니다
Sampling Errors (표본 오차): 신뢰도나 타당도에 관한 문제가 있는 경우 표본에 의한 오차라 해서 '표본 오차'라고 합니다.
Non-Sampling Errors (비표본 오차): 표본과는 별개로 표본 조사 방법에 문제가 있거나 표본을 계산하기 위해 정보를 기입하다 오타 등의 이유로 잘못 기입했거나 등등 표본 자체의 문제가 아니고 외적인 문제로 오차가 발생한 경우다.
그렇다면 Bias와 Lack of Precision을 해결하기 위해선 무엇을 해야할까요?
정답부터 간단히 말하자면
최대한 랜덤하게 뽑으면 bias의 문제를 해결할 수 있고
표본의 수를 늘리면 precision을 높일 수 있다고 합니다.
이를 해결하기 위해서 배워야 할 것에 대해 알아보겠습니다.
Simple Random Samples (SRS)
난수를 발생하여 표본을 추출하는 방법입니다. 말 그대로 '단순 무작위 표본'입니다.
특별한 이야기는 아닙니다.
마지막으로 간단하게 할 이야기는 표본 조사를 했을 때에 간단한 기호들을 소개입니다.
표본 집단에서의 표준편차, 분산은 다른 값을 사용합니다.
표본 집단을 분석하기 위해 신뢰구간, 허용 오차 범위 등의 개념을 사용합니다.
이에 관한 자세한 내용은 다음 포스팅에서 이어서 하도록 하겠습니다.


Comments
Post a Comment