2.3.2.4 표류

인구 드리프트, 사용 드리프트 및 시스템 드리프트는 하드 장기적인 추세를 연구하기 위해 빅 데이터 소스를 사용 할 수 있습니다.

많은 큰 데이터 소스의 큰 이점 중 하나는 시간에 따른 데이터를 수집하는 것으로한다. 사회 과학자들은 이상 시간 데이터, 세로 이러한 종류의 데이터를 호출합니다. 그리고, 자연, 세로 데이터는 변화를 연구하는데 매우 중요하다. 안정적으로 변화를 측정하기 위해, 단, 상기 측정 시스템 자체는 안정적이어야한다. 사회 학자 오티스 더들리 던컨의 말에, "당신은 측정 값을 변경하지 마십시오 변화를 측정하려는 경우" (Fischer 2011) .

불행히도, 많은 빅 데이터 시스템, 특히 비즈니스 시스템 작성 및 디지털 흔적이-모든 시간을 변경 캡처, 나는 드리프트 전화 할게 과정. 특히,이 시스템은 세 가지 주요 방법으로 변경 : 인구 드리프트 (를 사용하는 사람의 변화), (사람들이 그들을 사용하는 방법의 변경) 행동 드리프트시스템 드리프트 (시스템 자체의 변화). 드리프트의 세 가지 소스는 디지털 추적 데이터에 어떤 패턴이 세계에서 중요한 변화에 의해 발생할 수 있습니다, 또는 그것이 드리프트의 형태에 의해 발생 될 수 있음을 의미한다.

드리프트 모집단의 제 1 소스 드리프트되는 시스템을 사용하고, 이것은 긴 시간 척도와 단시간 스케일의 변경 누구. 예를 들어, 2008 년부터 소셜 미디어에 사람들의 평균 연령이 증가 제시합니다. 이러한 장기적 트렌드에 더하여, 어떤 순간에 시스템을 사용하는 사람은 변한다. 예를 들어, 2012 년 미국 대통령 선거 기간 동안 여성에 의해 작성된 정치에 대한 트윗의 비율은 매일 매일 변동 (Diaz et al. 2016) . 따라서, 어떤 사실 그냥 순간에 이야기하고 변화 될 수있는 트위터 구절의 분위기의 변화를 것으로 나타날 수 있습니다.

시스템을 사용하는 사람의 변화에​​ 더하여, 상기 시스템이 사용되는 방법의 변화가있다. 항의 진화 2013 시위대는 해시 태그의 사용을 변경 예를 들어, 중, 터키 이스탄불 게지 공원 시위를 차지한다. 여기에 Zeynep 투 페키 방법 (2014) 그녀는 트위터와 지상에 행동을 관찰 되었기 때문에 감지 할 수 있었다 드리프트를 설명 :

"무슨 일이 있었는지 즉시 항의으로 지배적 인 이야기, 많은 사람들이되었다이었다. . . 새로운 현상에주의를 집중시키기 제외 해시 태그 사용을 중단. . 시위 계속, 심지어는 강화하면서 ..의 해시 태그는 아래로 사망했다. 인터뷰는이 두 가지 이유를 밝혔다. 모든 사람이 주제를 알고 일단 첫째, 해시 태그는 한 번에 불필요한 낭비 문자 제한 트위터 플랫폼에서였다. 둘째, 해시 태그는 없습니다 그것에 대해 얘기를 들어 특정 주제에 주목을 받고에만 유용 볼 수 있었다. "

따라서, 시위 관련 해시 태그와 함께 트윗을 분석하여 시위를 연구 한 연구자들은이 때문에 행동 드리프트의 무슨 일이 벌어지고 있는지의 왜곡 된 감각을 가지고있다. 예를 들어, 그들은 실제로 감소하기 전에 항의의 논의는 긴 감소 믿고 있습니다.

드리프트의 세 번째 종류의 시스템 드리프트입니다. 이 경우에는, 변화하는 사람 또는 행동 변화되지 않지만,이 시스템 자체는 변경. 예를 들어, 시간에 따른 북 상태 업데이트의 길이에 대한 제한이 증가되었다. 따라서, 상태 업데이트의 길이 방향의 연구는이 변화에 의한 유물에 취약 할 것입니다. 시스템 드리프트 밀접하게 우리가 설정되는 알고리즘 혼란이라는 문제와 관련이 있습니다.