3.4.1 확률 표본 추출 : 데이터 수집 및 데이터 분석

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.1 확률 표본 추출 : 데이터 수집 및 데이터 분석

무게는 의도적으로 샘플링 프로세스에 의해 발생하는 왜곡을 취소 할 수 있습니다.

확률 샘플은 모든 사람을 포함하는 공지 된, 비 - 제로 가능성이 그 곳이 있으며, 간단한 확률 샘플링 설계는 각 개인이 포함 동등한 확률을 갖고 무작위로 샘플링 간단하다. 응답자가 완벽한 실행 (예를 들면, 어떤 범위 오류없이 무응답)와 단순 무작위 표본 추출을 통해 선택하면 샘플이 온 것이다 인구의 소형 버전 평균 수 있기 때문에, 다음 추정은 간단합니다.

단순 무작위 표본 추출은 거의 그러나, 실제로는 사용되지 않습니다. 오히려, 연구자들은 의도적으로 비용을 감소시키고 정확도를 증가시키기 위해 포함 동일하지 않은 확률을 가진 사용자를 선택한다. 연구진은 의도적으로 포함의 다른 확률을 가진 사람을 선택하면, 다음 조정은 샘플링 프로세스에 의해 발생하는 왜곡을 취소 할 필요가있다. 즉, 우리는 샘플 일반화 방법 샘플 선택 방식에 의존한다.

예를 들어, 현재 인구 조사 (CPS)는 실업률을 추정하기 위해 미국 정부에 의해 사용된다. 각 10 만 명이 인터뷰를 달, 얼굴 - 얼굴에 또는 전화를 통해 중, 그 결과는 예상 실업률을 생산하는 데 사용됩니다. 정부가 각 상태에서의 실업률을 추정하고자하기 때문에 그 많은 인구를 가진 상태에서 너무 많은 작은 집단 (예를 들어,로드 아일랜드)와 함께 주에서 너무 적은 응답자를 얻을 것이기 때문에, 그것은 성인의 단순 무작위 추출법을 수행 할 수 없습니다 (예 : 캘리포니아). 대신, 다른 속도에서 다른 상태에서 CPS 샘플 사람, 프로세스는 선택의 불평등 확률로 층화 추출법을했다. 예를 들어, 경우 CPS는 상태에 따라, 다음로드 아일랜드의 성인 (캘리포니아 대 80 성인 2,000 응답자 : 30,000,000 성인 2,000 응답자로드 아일랜드) 캘리포니아 성인보다는 포함 약 30 배 더 높은 확률을 가질 것이다 2,000 응답자을 원했다. 우리가 나중에 살펴 보 겠지만, 불평등 확률 표본 추출의이 종류도 데이터의 온라인 소스로 발생하지만, CPS는 달리, 샘플링 메커니즘은 일반적으로 알려져 있지 않거나 연구자에 의해 제어.

그 샘플링 디자인 감안할 때 CPS는 미국의 직접 담당자 아니다; 너무 많은로드 아일랜드에서 사람과 캘리포니아에서 너무 적은을 포함한다. 따라서, 샘플 실업률과 국가의 실업률을 추정 현명 할 것이다. 대신 표본 평균,로드 아일랜드에서 사람들이 캘리포니아에서 온 사람들보다 포함 될 가능성이 있다고 가중치는 사실을 고려 가중 평균을 수행하는 것이 좋습니다. 예를 들어, 캘리포니아에서 각 개인들이 될 것이다로드 아일랜드에서 추정 및 각 사람에 더 많은 계산됩니다 upweighted- 것 downweighted을-그들은 추정의 적은 수를 계산합니다. 본질적으로, 당신은 당신이에 대해 배울 가능성이 적은 사람들에 더 많은 음성이 제공됩니다.

이 장난감의 예는 중요하지만, 일반적으로 오해 점을 보여 시료 양호한 추정치를 생성하기 위해 모집단의 소형 버전 일 필요는 없다. 이 충분한 데이터를 수집하는 방법에 대해 알고있는 경우 샘플에서 추정 할 때, 해당 정보가 이용 될 수있다. 접근 방식은 그냥 설명 - 나는 기술에 수학적으로 설명하는 고전적인 확률 표본 추출 프레임 워크 내에서 정면 부록 - 폭포했습니다. 지금, 나는 그 같은 생각은 비 확률 표본에 적용 할 수있는 방법을 보여 드리겠습니다.