3.4.2 비 확률 샘플 : 가중

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 비 확률 샘플 : 가중

비 확률 표본으로, 무게는 가정 샘플링 과정에 의한 왜곡을 취소 할 수 있습니다.

연구자 확률 샘플로부터 응답 중량 동일한 방식으로, 또한 비 확률 샘플들로부터 응답을 가중 할 수있다. 예를 들어, CPS에 대한 대안으로, 당신은 실업률을 추정하기 위해 설문 조사를 위해 참가자를 모집하기 위해 수천 개의 웹 사이트에 배너 광고를 배치 상상. 당연히, 당신은 당신의 시료의 단순 평균은 실업률의 좋은 평가 될 것이라고 의심 할 것이다. 당신이 어떤 사람이 다른 사람보다 설문 조사를 완료 할 가능성이 있다고 생각하기 때문에 당신의 회의론은 아마이다. 예를 들어, 웹에서 많은 시간을 소비하지 않는 사람들은 설문 조사를 완료 할 가능성이 적습니다.

우리는 마지막 부분에서 보았 듯이, 그러나 우리는 알고있는 경우 샘플을 선택-으로 상황을 우리는 확률과는 샘플 - 우리는 샘플링 과정에 의한 왜곡을 취소 할 수 있습니다. 비 확률 샘플로 작업 할 때 불행하게도, 우리는 샘플을 선택한 방법을 모르겠어요. 그러나, 우리는 샘플링 프로세스에 대한 가정을 한 후 동일한 방법으로 가중치를 적용 할 수있다. 이러한 가정이 정확하다면, 가중은 샘플링 과정에 의해 야기되는 왜곡을 취소한다.

예를 들어, 배너 광고에 대한 응답으로, 당신은 100,000 응답자를 모집 상상. 그러나이 100,000 응답자는 미국 성인의 단순 무작위 표본이라고 생각하지 않습니다. 당신은 미국 인구에 응답자를 비교할 때 사실, 일부 국가 (예를 들어, 뉴욕)에서 사람들이 일부 주 (예를 들어, 알래스카)에서 오버 표현하고 사람들이 아래에 표현 된 것을 찾을 수 있습니다. 따라서, 샘플의 실업률은 대상 인구 실업률의 나쁜 평가 될 가능성이 높습니다.

샘플링 과정에서 일어난 왜곡을 취소하는 한 가지 방법은 각 사람에 가중치를 할당하는 것입니다; 샘플 (예를 들어, 알래스카)에 밑에 표시되는 상태에서 사람들에게 (예를 들어, 뉴욕) 시료와 높은 무게에 과도하게 표현되는 상태에서 사람들에게 낮은 무게. 구체적으로는, 각 응답자의 가중치는 미국 인구에서의 그들의 빈도에 대해 샘플 그들의 빈도에 관한 것이다. 이 가중치 절차는 사후 층화라고하며,로드 아일랜드 응답자가 캘리포니아에서 응답자보다 적은 무게를 받았다 어디에 무게의 생각은 3.4.1 절에서 예를 들어 당신을 생각 나게한다. 사후 층화는 그룹으로 응답자를 넣어 각 그룹에서 대상 인구의 비율을 알고 충분히 알고 있어야합니다.

확률 샘플과 비 확률 시료의 무게는 동일한 수학적를 (기술 부록 참조)이지만, 이들은 다른 상황에서 잘 작동한다. 연구자가 완벽한 확률 샘플 (즉, 어떤 범위 오류없이 비 응답)이있는 경우, 가중치는 모든 경우에 모든 특성에 대한 공정한 평가를 생성합니다. 확률 샘플의 지지자들이 그렇게 매력적 이유 강력한 이론적 보장이다. 한편, 가중 비 확률 샘플 응답 성향 각 그룹 모두에게 동일한 경우 모든 형질 편향 추정만을 생성 할 것이다. 즉, 뉴욕에있는 모든 사람들이 참여하고 알래스카에서 모두가 등 참여와 같은 확률이 동일한 확률이있는 경우 불편 추정치를 생성합니다 후 층화를 사용하여, 우리의 예를 다시 생각. 이 가정은 균질 반응 성향 - - - 그룹 내의 가정이라고하며 층화 비 확률 샘플과 잘 작동하는지 아는 것이 중요한 역할을한다.

불행하게도, 우리의 예에서, 균일 한 응답-성향-내 집단 가정은 사실 일 가능성이 보인다. 즉, 알래스카에있는 모든 사람이 설문 조사에있는 동일한 확률을 가지고 같지는 않다. 그러나, 더 유망 보이게 모두 사후 층화에 대해 유의해야 할 세 가지 중요한 사항이있다.

첫째, 균일 한 응답-성향-내 집단 가정은 그룹의 수가 증가함에 따라 더 그럴듯하게된다. 그리고, 연구자는 단 하나의 지리적 차원을 기반으로 그룹에 한정되는 것은 아니다. 예를 들어, 우리는 국가, 연령, 성별, 교육 수준에 따라 그룹을 만들 수 있습니다. 그것은 18-29의 그룹 내에서 균일 한 응답 성향이 있음을 더 그럴듯하게 보인다, 알래스카에 살고있는 모든 사람들의 그룹 내에서보다 알래스카에 살고있는 여성, 대학 졸업생. 따라서, 사후 층화 증가 사용 그룹의 수로서 가정은 합리적하게 지원할 필요가 있었다. 이 사실을 감안할 때, 연구자가 포스트 계층화에 대한 그룹의 거대한 숫자를 만들 것처럼 보인다. 데이터 희소성하지만, 그룹의 수가 증가함에 따라, 연구자들은 다른 문제는 실행. 각 그룹의 소수만 존재하는 경우, 그 추정치는보다 불확실하고, 극단적 인 경우에는 응답자가없는 그룹이있는 곳 것이다 후 층화 완전히 분해. homogeneous- 응답-성향-내 집단 가정의 타당성과 각 그룹의 합리적인 표본 크기에 대한 수요 사이의 고유 한 긴장 중 두 가지가 있습니다. 한 가지 방법은 가중치를 계산하기 위해 더 정교한 통계 모델로 이동하고 다른 하나는 각 그룹의 적절한 샘플 크기를 보장하는 데 도움이 더 크고 다양한 샘플을 수집한다. 나는 아래 자세한 내용을에서 설명하는 것 같이, 때로는 연구자들은, 두 가지를 모두 수행.

비 확률 표본에서 사후 층화 작업을 두 번째 고려 사항은 확률 샘플을 분석 할 때 균일 한 응답-성향-내 집단 가정이 이미 빈번하게 구성되어 있다는 것입니다. 이러한 가정은 실제로 확률 샘플에 필요한 이유는 확률 샘플 무응답을 가지고 있으며, 상기 한 바와 같이 비 반응을 조절하기위한 가장 일반적인 방법은 층화된다. 물론, 많은 연구자가 특정 가정이 너무 그것을 할 것을 의미하지 않는다하게해서. 그러나, 그것은 실제로 확률 샘플 비 확률 샘플을 비교했을 때, 우리는 모두 추정치를 생성하기 위해 가정 및 보조 정보에 따라 명심해야 의미한다. 가장 현실적인 설정에서, 단순히 추론 할 가정이없는 방법이 없습니다.

당신이 우리의 예를 들어 실업 특히-에 대한 하나의 추정치를 걱정하는 경우 마지막으로, 속도 - 당신은 균일 한 응답-성향-내 집단 가정보다 약한 조건이 필요합니다. 특히, 당신은 당신이 각 그룹 내에서 응답 성향과 실업률 사이에는 상관 관계가 없다고 가정 할 필요가, 모두가 같은 응답 성향이 있다고 가정 할 필요가 없습니다. 물론, 심지어이 약한 조건은 어떤 상황에서 유지되지 않습니다. 예를 들어, 자원 봉사 활동을 할 미국인의 비율을 추정하는 상상. 자원 봉사 활동을 할 사람들이 설문 조사에에 동의 할 가능성이있는 경우, 연구자 것이다 체계적으로 과다 추정 그들이에 의해 경험적으로 입증 된 결과 사후 층화 조정을 할 경우에도 자원 봉사의 양을 Abraham, Helms, and Presser (2009) .

앞서 말했듯이, 비 확률 표본 때문에 조사 연구의 초기에 가장 당황 실패의 일부에서 자신의 역할의 일부 사회 과학자들에 의해 큰 회의로 볼 수 있습니다. 우리는 비 확률 샘플왔다 얼마나 멀리의 명확한 예는 정확하게 미국의 X 박스 사용자의 비 확률 샘플을 사용하여 2012 년 미국 선거의 결과를 회수 웨이 왕, 데이빗 로스 차일드, 샤 라드 고엘, 앤드류 겔만의 연구이다 미국의 -a 확실히 비 무작위 표본 (Wang et al. 2015) . 연구팀은 X 박스 게임 시스템에서 응답자를 모집하고 예상대로, X 박스 샘플은 남성을 왜곡하고 젊은 왜곡 : 18~29년의 어린이는 유권자의 19 % 만 X 박스 샘플의 65 %를 구성 남성 47 %를 차지 유권자와 X 박스 샘플 (그림 3.4)의 93 %의. 때문에이 강한 인구 통계 학적 편견의 원시 X 박스 데이터는 선거 반환 가난한 표시했다. 그것은 버락 오바마 미트 롬니에 대한 강한 승리를 예측했다. 다시, 이것은 원시, 조정되지 않은 비 확률 표본의 위험의 또 다른 예이며, 문학 다이제스트 실패 연상시킨다.

그림 3.4 : 왕 등 응답자의 인구 통계. (2015). 응답자가 X 박스에서 채용 되었기 때문에, 그들은 젊고 2012 년 선거에서 유권자를 기준으로 남성 될 가능성이 될 가능성이 있었다.

그림 3.4 : 응답자의 인구 통계 Wang et al. (2015) . 응답자가 X 박스에서 채용 되었기 때문에, 그들은 젊고 2012 년 선거에서 유권자를 기준으로 남성 될 가능성이 될 가능성이 있었다.

그러나 왕과 동료들은 이러한 문제를 인식했고, 샘플링 프로세스를 수정하기 위해 응답자 체중을 시도했습니다. 특히, 그들은 내가 대해 말한 후 층화의보다 정교한 형태를 사용했다. 그것은 사후 층화에 대한 직관을 기반으로하기 때문에 자신의 접근 방식에 대해 좀 더 자세히 알고 가치가 사용 된 특정 버전의 왕과 동료들은 가중 비 확률 표본에 가장 흥미로운 방법 중 하나입니다.

3.4.1 절에서 실업률을 추정에 대한 우리의 간단한 예제에서, 우리는 거주의 상태에 따라 그룹으로 인구를 나누었다. 대조적으로, 왕과 동료에 의해 정의 된 176,256 그룹으로 인구로 나누어 : 성별 (2 종류), 인종 (4 종류), 연령 (4 종류), 교육 (4 종류), 주 (51 종류), 자 ID (3 카테고리), 사상 (3 종류)와 2008 표 (3 종류). 이상의 그룹으로, 연구진은 각 그룹 내에서, 응답 성향은 오바마를 지원 상관 것을 점점 더 가능성이있을 것이라고 희망했다. 다음으로, 오히려 우리가 우리의 예에서와 마찬가지로, 개인 수준의 가중치를 구성하는 것보다, 왕과 동료들은 오바마에게 투표 할 각 그룹에있는 사람들의 비율을 추정하기 위해 복잡한 모델을 사용했다. 마지막으로, 그들이 지원 추정 전체 레벨을 생성하기 위해 각 그룹의 공지 된 크기를 갖는 지지체의 그룹이 추정들을 조합. 즉, 이들은 서로 다른 그룹으로 인구 잘게 각 그룹 오바 대한 지원을 추정하고 전체 추정치를 생성하기 위해 상기 그룹 추정치들의 가중 평균을했다.

따라서, 자신의 접근 방식에 큰 도전이 176,256 각 그룹에서 오바마에 대한 지원을 추정하는 것입니다. 자신의 패널은 345,858 독특한 참가자 선거 투표의 기준으로 거대한 수를 포함하지만, 왕과 동료들은 거의 응답자 있던 많은, 많은 그룹이 있었다. 따라서, 연구진은 다정하게 많은에서 씨 P. 풀이 정보 특정 그룹 내에서 오바마에 대한 지원을 추정하기 위해, 기본적 씨 P. 전화 후 계층화와 다중 회귀라는 그들이 기술을 사용하는 각 그룹의 지원을 추정하기 밀접 그룹 관련. 예를 들어, 사람 온건파로 자기 - 식별 민주당 등록 된 대학 졸업생,,, 그리고이 2008 년에 오바마에게 투표하는 사람들, 18~29년 세 사이의 여성 히스패닉 사이에서 오바마에 대한지지를 추정하는 문제를 고려 매우, 매우 구체적인 그룹이며, 이러한 특성을 갖는 샘플에서 아무도이 없다고 할 수있다. 따라서이 그룹에 대한 추정을 만들 씨 P. 풀은 서로 매우 비슷 그룹의 사람들로부터 추정하고있다.

이 분석 전략을 사용하여, 왕과 동료들은 (그림 3.5) 매우 밀접 오바마 대통령이 2012 년 선거에서 수신 된 전체 지원을 추정하기 위해 X 박스 비 확률 샘플을 사용할 수 있었다. 사실 그들의 평가는 여론 조사의 집계보다 더 정확했다. 따라서,이 경우, 가중치 - 특이 씨 비 확률 데이터의 바이어스를 보정하는 양호한 일을 P.는-보인다; 당신이 조정되지 않은 X 박스 데이터로부터 추정 보면 볼 수 있습니다 편견.

그림 3.5 : 왕 등의 알에서 예상. (2015). 조정되지 않은 X 박스 샘플은 부정확 한 추정치를 생산했다. 그러나, 가중 X 박스 샘플은 확률 기반의 전화 설문 조사의 평균보다 더 정확했다 견적을 생산했다.

그림 3.5 :에서 견적 Wang et al. (2015) . 조정되지 않은 X 박스 샘플은 부정확 한 추정치를 생산했다. 그러나, 가중 X 박스 샘플은 확률 기반의 전화 설문 조사의 평균보다 더 정확했다 견적을 생산했다.

왕과 동료의 연구에서 두 가지 교훈이있다. 우선, 조정되지 않은 확률 샘플 잘못된 추정을 초래할 수있다; 이것은 많은 연구자가 전에 들어 본 적이있는 교훈이다. 그러나, 제 공과 적절히 가중 될 때 비 확률 샘플은 실제로 매우 양호한 추정을 생성 할 수 있다는 것이다. 사실, 그들의 예상 pollster.com, 전통적인 선거 여론 조사의 집계에서 예상보다 더 정확했다.

마지막으로, 우리는이 하나의 특정 연구에서 배울 수있는 중요한 제한이 있습니다. 사후 층화이 특정 경우에 잘 작동해서, 그것은 다른 경우에서 잘 작동한다는 보장은 없습니다. 여론 조사는 거의 100 년 동안 선거를 공부했기 때문에 사실, 선거 아마 가장 쉬운 설정 중 하나이며, 거기에 정기적으로 피드백 (우리가 선거에서 누가이기 든 볼 수 있습니다), 파티 식별과 인구 통계 학적 특성은 투표의 상대적으로 예측된다. 이 시점에서, 우리는 고체 이론 비 확률 샘플 가중 조정이 충분히 정확한 추정을 생성 할 때 알 실험 경험이 부족하다. 당신은 비 확률 표본 작동하도록 강제하는 경우 분명한 한 가지는, 그러나이며, 다음 조정 된 추정치가 아닌 조정 예상보다 더 좋을 것이라고 믿는다 강한 이유가있다.