2.3.1

대형 데이터 세트는 끝에 수단; 그들은 자신의 말 없습니다.

큰 데이터 소스에서 가장 널리 논의되는 기능은 BIG라는 것입니다. 예를 들어 많은 논문은 분석 한 데이터의 양에 대해 토론하고 때로는 자랑 스러울 때가 있습니다. 예를 들어, Google 도서 코퍼스의 단어 사용 추세를 연구하는 Science 지에 게재 된 논문에는 다음이 포함되었습니다 (Michel et al. 2011) .

영어 (3,610 억), 프랑스어 (450 억), 스페인어 (450 억), 독일어 (370 억), 중국어 (130 억), 러시아어 (350 억), 히브리어 (20 억). 가장 오래된 작품은 1500 년대에 출판되었습니다. 초창기는 수십만 단어로 구성된 연간 몇 권의 책으로 만 표현됩니다. 1800 년까지, 해마다 1800 만 단어로 증가합니다. 1900 년까지, 18 억; 그리고 2000 년까지, 110 억. 코퍼스는 사람이 읽을 수 없습니다. 2000 년 한해에만 200 단어 / 분의 합리적인 속도로 음식이나 수면을 중단하지 않고 영어 입력 만 읽으려고하면 80 년이 걸릴 것입니다. 글자의 순서는 인간 게놈보다 1000 배 길다. 만약 당신이 그것을 일직선으로 썼다면, 그것은 달에 도달 할 것이고, 다시 10 배가 될 것이다. "

이 데이터의 규모는 의심 할 여지없이 인상적이며, Google 도서 팀이이 데이터를 대중에게 공개 한 것은 운이 좋았습니다. 사실이 장의 마지막에있는 일부 활동은이 데이터를 사용합니다. 그러나 이와 같은 것을 보게 될 때마다 물어야합니다 : 모든 데이터가 실제로 무엇을하고 있는가? 데이터가 달에 도달하여 한 번만 돌아올 수 있다면 동일한 연구를 수행했을 수 있습니까? 데이터가 에베레스트 산 꼭대기 또는 에펠 탑 꼭대기에만 닿을 수 있다면 어떨까요?

이 경우, 그들의 연구는 사실 오랜 기간에 걸쳐 거대한 단어 모음을 필요로하는 몇 가지 연구 결과를 가지고 있습니다. 예를 들어, 그들이 탐구하는 한가지는 문법의 진화, 특히 불규칙 동사 활용의 변화입니다. 불규칙 동사가 매우 드물기 때문에 시간 경과에 따른 변화를 감지하기 위해서는 많은 양의 데이터가 필요합니다. 그러나 연구자들은 너무나 중요한 과학적 목적의 수단이 아니라 큰 데이터 소스의 크기를 최후의 문제로 취급하는 것처럼 보입니다.

내 경험에 비추어 볼 때 드문 사건에 대한 연구는 대규모 데이터 세트가 가능하게하는 세 가지 과학적 목적 중 하나입니다. 두 번째는 미국의 사회 이동성에 대한 Raj Chetty와 동료 (2014) 의 연구에서 설명 할 수있는 것처럼 이질성에 대한 연구입니다. 과거 많은 연구자들이 부모와 자녀의 삶의 결과를 비교함으로써 사회적 이동성을 연구했습니다. 이 문헌의 일관된 발견은 우호적 인 부모는 우호적 인 자녀가있는 경향이 있지만, 이러한 관계의 강도는 시간이 지남에 따라 그리고 국가에 따라 다양 (Hout and DiPrete 2006) . 그러나 최근 Chetty와 동료들은 미국 전역의 세대 간 이동성의 이질성을 추정하기 위해 4 천만 명에 이르는 세금 기록을 사용할 수있었습니다 (그림 2.1). 예를 들어, 캘리포니아 주 산호세에서는 13 %, 노스 캐롤라이나 주 샬롯에서는 약 4 %만이 하위 5 분위에 속하는 가족에서 시작하여 전국 소득 분배의 상위 5 분위에 도달 할 확률을 발견했습니다. 그림 2.1을 잠시 살펴보면 세대 간 이동성이 다른 곳보다 왜 더 높은지 궁금해하기 시작할 수 있습니다. Chetty와 동료들은 똑같은 질문을했고, 높은 이동성이있는 지역은 주거 분리가 적고 소득 불평등이 적으며 초등 학교가 더 좋고 사회 자본이 많으며 가족 안정성이 더 우수하다는 사실을 알게되었습니다. 물론 이러한 상관 관계만으로는 이러한 요소가 더 높은 이동성을 유발한다는 사실을 보여주지는 못하지만 차후 연구에서 Chetty와 동료가 수행 한 것과 동일한 추후 연구에서 탐색 할 수있는 메커니즘을 제안합니다. 이 프로젝트에서 데이터의 크기가 얼마나 중요한지 주목하십시오. Chetty와 동료가 4 천만 명이 아닌 40,000 명의 세금 기록을 사용했다면 지역의 이질성을 예측할 수 없었으며 이러한 변화를 만드는 메커니즘을 확인하기 위해 후속 연구를 수행 할 수 없었을 것입니다.

그림 2.1 : 부모가 하위 20 %의 소득 분포의 상위 20 %에 도달 할 확률을 추정 (Chetty et al. 2014). 이질성을 보여주는 지역 수준의 추정치는 당연히 단일 국가 수준의 추정으로는 발생하지 않는 흥미롭고 중요한 질문으로 이어집니다. 이 지역 수준의 추정은 부분적으로는 연구원이 4 천만 명에 달하는 대규모 데이터 소스를 사용했기 때문에 가능했습니다. http://www.equality-of-opportunity.org/에서 제공되는 데이터로 작성되었습니다.

그림 2.1 : 부모가 하위 20 %의 소득 분포의 상위 20 %에 도달 할 확률을 추정 (Chetty et al. 2014) . 이질성을 보여주는 지역 수준의 추정치는 당연히 단일 국가 수준의 추정으로는 발생하지 않는 흥미롭고 중요한 질문으로 이어집니다. 이 지역 수준의 추정은 부분적으로는 연구원이 4 천만 명에 달하는 대규모 데이터 소스를 사용했기 때문에 가능했습니다. http://www.equality-of-opportunity.org/에서 제공되는 데이터로 작성되었습니다.

마지막으로, 드문 사건을 연구하고 이질성을 연구하는 것 외에도, 대규모 데이터 세트는 연구자가 작은 차이를 탐지 할 수있게 해줍니다. 실제로 업계의 빅 데이터에 중점을 두는 대부분의 차이점은 광고에서 1 %와 1.1 % 사이의 클릭률 차이를 확실하게 감지하면 수백만 달러의 추가 수익이 발생한다는 것입니다. 그러나 어떤 과학적 환경에서는 이러한 작은 차이가 통계적으로 중요하더라도 (Prentice and Miller 1992) 특별히 중요하지 않을 수도있다. 그러나 일부 정책 설정에서는 집계에서 볼 때 중요해질 수 있습니다. 예를 들어 공중 보건 중재가 두 개 있고 다른 중재보다 약간 효과가있는 경우 더 효과적인 중재를 선택하면 수 천 명의 추가 생명을 구할 수 있습니다.

bigness는 일반적으로 올바르게 사용될 때 일반적으로 좋은 속성이지만, 때때로 개념적 오류가 발생할 수 있음을 알았습니다. 어떤 이유로, bigness는 연구원들이 그들의 데이터가 어떻게 생성되었는지를 무시하게 만듭니다. bigness는 임의 오류에 대한 걱정의 필요성을 줄이지 만 실제로 체계적인 오류에 대한 걱정의 필요성이 증가 합니다. 오류 유형은 데이터 작성 방법의 편향으로 인해 발생하는 오류 유형입니다. 예를 (Back, Küfner, and Egloff 2010) 장의 뒷부분에서 설명 할 프로젝트에서 연구원은 2001 년 9 월 11 일에 생성 된 메시지를 사용하여 테러리스트 공격에 대한 반응의 고해상도 감정적 인 타임 라인을 작성했습니다 (Back, Küfner, and Egloff 2010) . 조사자들은 많은 수의 메시지를 보았 기 때문에 하루 동안의 분노를 증가시키는 패턴이 무작위적인 변화로 설명 될 수 있는지에 대해 걱정할 필요가 없었습니다. 너무 많은 데이터가 있었고 패턴이 너무 명확하여 모든 통계적 통계 테스트에서 이것이 실제 패턴이라는 것을 알았습니다. 그러나 이러한 통계 테스트는 데이터 작성 방법을 모르고있었습니다. 실제로 많은 패턴이 하루 종일 더 많은 의미없는 메시지를 생성하는 단일 봇에 기인 한 것으로 밝혀졌습니다. 이 하나의 봇을 제거하면 종이의 주요 발견 사항 중 일부가 완전히 파괴되었습니다 (Pury 2011; Back, Küfner, and Egloff 2011) . 간단히 말해 체계적인 오류에 대해 생각하지 않는 연구원은 자동화 된 봇에 의해 생성 된 의미없는 메시지의 감정적 인 내용과 같이 중요하지 않은 양의 정확한 추정치를 얻기 위해 대규모 데이터 집합을 사용할 위험에 직면합니다.

결론적으로, 거대한 데이터 세트는 그 자체로 끝이 아니지만 희소 한 사건 연구, 이질성 평가 및 작은 차이의 발견을 포함하여 특정 종류의 연구를 가능하게 할 수 있습니다. 큰 데이터 세트는 일부 연구자들이 데이터가 어떻게 생성되었는지를 무시하게하여 중요하지 않은 양의 정확한 추정치를 얻을 수있게합니다.