2.2 빅 데이터

빅 데이터 생성 및 연구 이외의 목적으로 정부에 의해 수집된다. 연구를 위해이 데이터를 사용하므로, 용도 변경이 필요합니다.

사회 연구의 이상화보기는 과학자 생각을 갖는 그 아이디어를 테스트하기 위해 데이터를 수집 상상. 연구의이 스타일은 연구 문제와 데이터 사이에 꽉 맞는에 이르게하지만, 개별 연구자가 종종 큰 풍부하고, 전국적으로 대표적인 데이터로 그들이 필요로하는 데이터를 수집하는 데 필요한 자원이 없기 때문에이 제한됩니다. 이러한 일반 사회 조사 (GSS), 미국 중앙 선거 관리 연구 (ANES), 및 소득 역학의 패널 연구 (PSID)와 같은 따라서, 과거에 사회 연구를 많이 사용하고있다 대규모 사회 조사. 이러한 대규모 조사는 일반적 연구팀에 의해 실행되며, 이들은 많은 연구자들에 의해 사용될 수있는 데이터를 생성하도록 설계된다. 이러한 대규모의 조사 목표 때문에 세심한주의가 데이터 수집을 설계 연구자 사용하기위한 결과 데이터를 준비 투입된다. 이 자료는 연구자와 연구자를위한 것입니다.

디지털 시대의 소스를 사용하는 대부분의 사회 조사하지만, 근본적으로 다르​​다. 대신 연구자 연구자 수집 된 데이터를 이용하여, 그것은 생성하며, 수익을 서비스를 제공하거나, 투여 법으로서 자신을 위해 기업 및 정부에 의해 수집 된 데이터 소스를 사용한다. 이 기업과 정부 데이터 소스는 빅 데이터를 호출 할 수왔다. 빅 데이터와 연구를 수행하면 원래 연구를 위해 생성 된 데이터와 연구를하고 다릅니다. 예를 들어, 비교, 같은 일반 사회 조사 (GSS)와 같은 기존의 여론 조사와 트위터 등의 소셜 미디어 웹 사이트. 트위터의 주요 목표는 사용자에게 서비스를 제공하고 이익을한다. 이러한 목표를 달성하는 과정에서, 트위터는 여론의 특정 측면을 연구하는 데 유용 할 수있는 데이터를 생성한다. 그러나, 일반 사회 조사 (GSS)과는 달리, 트위터는 사회 연구에 주로 초점을 맞춘 없습니다.

용어 빅 데이터는 실망스럽게도 모호하고 그룹 함께 많은 다른 것들을. 사회 연구의 목적을 위해, 나는 두 개의 큰 데이터 소스의 종류를 구분하는 것이 도움이된다 생각한다. 정부 관리 기록 및 사업 관리 기록을 정부 관리 기록은 자신의 일상적인 활동의 일환으로 정부에 의해 생성 된 데이터이다. 기록 이러한 종류의 예 : 과거, 결혼 및 사망 기록-하지만 정부가 점점 탄생 수집하고 분석 가능한 형태로 상세한 기록을 공개하는 연구 인구 통계로에서 연구자들에 의해 사용되어왔다. 예를 들어, 뉴욕시 정부는 도시의 모든 택시의 내부 디지털 미터를 설치했습니다. 이 미터는 드라이버, 시작 시간과 위치, 정지 시간과 위치, 요금을 포함하여 각 택시에 대한 모든 종류의 데이터를 기록한다. 나는이 장에서 나중에 말해 줄게하는 연구에서, 헨리 파버 (2015) 시간당 임금과 노동 시간의 수 사이의 관계에 대한 노동 경제학의 근본적인 논쟁을 해결하기 위해 이러한 데이터를 용도 변경.

사회 연구를위한 빅 데이터의 두 번째 주요 유형은 사업 관리 기록이다. 이 사업은 자신의 일상적인 활동의 일환으로 작성하고 수집 데이터입니다. 이 사업 관리 기록은 종종 디지털 흔적을 호출 및 검색 엔진 쿼리 로그, 소셜 미디어 게시물 등을 포함, 휴대 전화에서 레코드를 호출한다. 비판적으로,이 사업 관리 기록은 온라인 행동에 대해 수 없습니다. 예를 들어, 체크 아웃 스캐너를 사용하여 저장 근로자의 생산성을 실시간으로 조치를 만들 수 있습니다. 나는 약이 장 뒷부분의 말씀 드리죠 연구에서, 알렉산드르 마스와 엔리코 모레티 (2009) 노동자의 생산성이 동료의 생산성에 영향을하는 방법을 연구하기 위해이 슈퍼마켓 체크 아웃 데이터를 용도 변경.

이러한 예는 모두 설명 된 바와 같이, 용도 변경의 아이디어는 빅 데이터로부터 학습의 기초입니다. 내 경험에 의하면, 사회 과학자 및 데이터 과학자들은이 매우 다르게 용도 변경에 접근. 연구 설계 데이터로 작업에 익숙한 사회 과학자들은, 그 강점을 무시하고 용도 변경 데이터의 문제점을 지적 빠르다. 한편, 데이터 과학자 약점을 무시하고 데이터를 다른 용도의 이점을 지적 빠르다. 물론, 가장 좋은 방법은 하이브리드 될 것이다. 즉, 연구자가 데이터를 모두 좋고 나쁜-하고 그들로부터 배울 방법을 알아낼의 새로운 소스의 특성을 이해할 필요가있다. 그리고, 그이 장의 나머지 부분에 대한 계획입니다. 다음으로, 기업과 정부 관리 데이터의 열 일반적인 특성을 설명한다. 그 후, 이러한 데이터는 물론이 데이터의 특성에 적합한 방식으로 이용 될 수있는 세 가지 조사 방법을 설명한다.