Bit By Bit - 관찰 행동

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

활동

어려움의 정도 : 쉬운 , 중간 , 열심히 , 열심히
수학이 필요하다. $수학이 필요하다.$ )
코딩이 필요함 ( )
데이터 수집 ( )
내가 좋아하는 것들 ( )

[ , ] 알고리즘 혼란은 Google 독감 트렌드의 문제점이었습니다. Lazer et al. (2014) , 문제를 설명하고 해결 방법에 대한 아이디어를 제공하는 Google 엔지니어에게 짧고 명확한 이메일을 보냅니다.
[ Bollen, Mao, and Zeng (2011) 은 Twitter의 데이터를 사용하여 주식 시장을 예측할 수 있다고 주장합니다. 이 발견으로 트위터 (Jordan 2010) 에서 수집 한 데이터를 기반으로 주식 시장에 투자 할 수있는 헤지 펀드 Derwent Capital Markets이 창안되었습니다. 그 기금에 돈을 넣기 전에 어떤 증거를보고 싶습니까?
[ ] 일부 공중 보건 옹호론자들은 전자 담배를 금연을위한 효과적인 원조라고 생각하지만 다른 사람들은 높은 수준의 니코틴과 같은 잠재적 인 위험에 대해 경고합니다. 연구원이 전자 담배에 대한 여론을 연구하기 위해 전자 담배 관련 트위터 게시물을 수집하고 정서 분석을 실시한다고 가정 해보십시오.
1. 이 연구에서 가장 걱정할 수있는 세 가지 편견은 무엇입니까?
2. Clark et al. (2016) 은 그러한 연구를 수행했습니다. 첫째, 그들은 2012 년 1 월부터 2014 년 12 월까지 전자 담배 관련 키워드를 사용한 짹짹이 850,000 건을 수집했습니다. 더 자세히 살펴보면 대부분의 짹짹이 자동화되어 (즉, 사람이 생산하지 않은) 자동 짹짹이 본질적으로 많다는 것을 깨달았습니다 광고. 그들은 자동화 된 트윗과 유기적 인 트윗을 분리하는 인간 탐지 알고리즘을 개발했습니다. 이 사람 감지 알고리즘을 사용하여 트윗의 80 %가 자동화 된 것으로 나타났습니다. 이 발견이 부분 (a)에 대한 귀하의 답변을 변경합니까?
3. 유기적 인 트윗과 자동적 인 트윗의 정서를 비교했을 때 자동화 된 트윗은 유기적 인 트윗보다 더 긍정적이라는 것을 발견했습니다 (6.17 vs 5.84). 이 발견이 (b)에 대한 당신의 대답을 바꾸는가?
[ ] 2009 년 11 월 트위터에서 트위터의 질문을 "What are you doing?"에서 "What 's happening?"(https://blog.twitter.com/2009/whats-happening)으로 변경했습니다.
1. 프롬프트의 변경이 누가 트윗 및 / 또는 트윗에 영향을 미칠 것이라고 생각하십니까?
2. "무엇을하고 계십니까?"라는 질문을 선호하는 연구 프로젝트의 이름을 지어주십시오. 이유를 설명하십시오.
3. "무엇이 일어나고 있습니까?"라는 프롬프트를 선호하는 연구 프로젝트의 이름을 적으십시오. 이유를 설명하십시오.
[ ] "리트 윗"은 종종 트위터에 대한 영향력과 영향력을 측정하는 데 사용됩니다. 처음에는 사용자가 좋아하는 트윗을 복사하여 붙여 넣기를하고 원저자에게 손잡이를 붙인 다음 트윗 앞에 "RT"를 수동으로 입력하여 리트 윗임을 나타냅니다. 그런 다음 2009 년에 Twitter는 "retweet"버튼을 추가했습니다. 2016 년 6 월, Twitter는 사용자가 자신의 트윗 (https://twitter.com/twitter/status/742749353689780224)을 리트 윗 할 수있게했습니다. 이러한 변화가 연구에서 "retweets"을 사용하는 방법에 영향을 미칠 것이라고 생각하십니까? 그 이유는 무엇?
[ , , , ] 널리 논의 된 논문에서 Michel과 동료 (2011) 는 장기적인 문화 동향을 파악하기 위해 500 만 개 이상의 디지털화 된 책의 내용을 분석했습니다. 그들이 사용한 데이터는 이제 Google NGrams 데이터 세트로 공개되었으므로이 데이터를 사용하여 일부 작업을 복제하고 확장 할 수 있습니다.

이 논문의 많은 결과 중 하나에서 Michel과 동료들은 우리가 더 빠르고 더 빨리 잊고 있다고 주장했습니다. 특정 연도의 경우, "1883"이라고하면 1875 년에서 1975 년 사이에 발행 된 1-grams의 비율을 "1883"이라고 계산합니다. 그들은이 비율이 그 해에 일어난 사건에 대한 관심의 척도라고 추론했다. 그림 3a에서 그들은 3 년 동안의 사용 궤도를 계획했다 : 1883, 1910, 1950.이 3 년은 공통 패턴을 공유한다 : 그 해 이전에는 거의 사용하지 않았고 그 다음에 스파이크, 그 다음 부패했다. 다음으로, Michel과 동료들은 매년 1875 년과 1975 년 사이의 모든 연도의 "반감기"를 계산했습니다. 그림 3a (삽입 된 그림)에서 각 연도의 반감기 해가 갈수록 줄어들고 있으며, 이는 우리가 과거를 더 빠르고 더 빨리 잊어 버렸다는 것을 의미한다고 주장했다. 그들은 버전 1의 영어 코퍼스를 사용했으나 이후 Google은 코퍼스의 두 번째 버전을 출시했습니다. 코딩을 시작하기 전에 질문의 모든 부분을 읽으십시오.

이 활동을 통해 재사용 가능한 코드 작성, 결과 해석 및 데이터 문제 (예 : 어색한 파일 작업 및 누락 된 데이터 처리)를 연습 할 수 있습니다. 이 활동은 풍부하고 흥미로운 데이터 세트로 시작하고 실행하는 데 도움이됩니다.
1. Google 도서 NGram 뷰어 웹 사이트에서 원시 데이터를 가져옵니다. 특히 2012 년 7 월 1 일에 릴리스 된 영어 코퍼스 버전 2를 사용해야합니다. 압축되지 않은 파일은 1.4GB입니다.
2. Michel et al. (2011) 의 그림 3a의 주요 부분을 다시 작성하십시오 Michel et al. (2011) . 이 숫자를 다시 만들려면 파트 (a)에서 다운로드 한 파일과 원시 카운트를 비율로 변환하는 데 사용할 수있는 "총 카운트"파일의 두 파일이 필요합니다. 총 카운트 파일은 읽을 수없는 구조를 가지고 있습니다. NGram 데이터의 버전 2는 Michel et al. (2011) 이 제시 한 것과 유사한 결과를 산출합니다 Michel et al. (2011) , 버전 1 데이터를 기반으로합니까?
3. 이제 NGram Viewer에서 생성 한 그래프와 비교하여 그래프를 확인하십시오.
4. 그림 3a (주요 수치)를 다시 작성하지만 $y$ 축을 원시 언급 횟수 (언급 비율이 아닌)로 변경하십시오.
5. (b)와 (d)의 차이점은 Michel et al.의 결과를 재평가하게합니다. (2011). 그 이유는 무엇?
6. 이제 멘션의 비율을 사용하여 그림 3a의 삽입 그림을 반복합니다. 즉, 매년 1875 년에서 1975 년 사이에 그 해의 반감기를 계산하십시오. 반감기는 언급 된 비율이 최고 값의 절반에 도달하기 전에 경과 한 연도 수로 정의됩니다. Michel et al. (2011) 은 반감기를 추정하기 위해 좀 더 복잡한 것을 수행합니다 - 온라인 정보 지원의 III.6 절을보십시오 - 그러나 그들은 두 가지 접근법이 비슷한 결과를 산출한다고 주장합니다. NGram 데이터의 버전 2는 Michel et al. (2011) , 버전 1 데이터를 기반으로합니까? (힌트 : 그렇지 않은 경우 놀라지 마십시오.)
7. 특히 빠르거나 특히 천천히 잊어 버린 해 같은 이상치가 있었습니까? 그 패턴에 대한 가능한 이유에 대해 간단히 추측하고 이상 치를 어떻게 식별했는지 설명하십시오.
8. 이제 중국어, 프랑스어, 독일어, 히브리어, 이탈리아어, 러시아어 및 스페인어로 NGrams 데이터의 버전 2에 대한이 결과를 복제하십시오.
9. 모든 언어를 비교해 볼 때 특히 빠르거나 특히 느리게 잊어 버린 연도와 같이 이상 치가있는 해가 있었습니까? 그 패턴에 대한 가능한 이유에 대해 간단히 추측 해보십시오.
[ , , , ] Penney (2016) 는 2013 년 6 월에 NSA / PRISM 감시 (즉, Snowden 계시)에 대한 광범위한 홍보가 개인 정보 보호 문제를 제기하는 주제에 대한 Wikipedia 기사의 트래픽 급감과 관련이 있는지 조사했습니다. 그렇다면 이러한 행동 변화는 대량 감시로 인한 차가운 결과와도 일치 할 것입니다. Penney (2016) 의 접근법은 때때로 인터럽트 된 시계열 설계로 불리며, 2.4.3 절에 설명 된 접근법과 관련됩니다.

주제 키워드를 선택하기 위해 Penney는 미국 국토 안보부가 소셜 미디어 추적 및 모니터링에 사용하는 목록을 언급했습니다. 국토 안보부 (DHS) 목록은 "건강 문제", "인프라 보안"및 "테러리즘"과 같은 일련의 문제로 특정 검색어를 분류합니다. 연구 그룹의 경우 페니는 "테러리즘"과 관련된 48 개의 키워드를 사용했습니다 (부록 8 ). 그는 2012 년 1 월 초부터 2014 년 8 월 말까지 32 개월 동안 Wikipedia 기사 뷰 수를 월별로 집계했습니다. 그의 주장을 강화하기 위해 그는 또한 추적을 통해 몇 가지 비교 그룹을 만들었습니다 다른 주제에 대한 기사보기

자, 여러분은 Penney (2016) 를 복제하고 확장 할 것입니다. 이 작업에 필요한 모든 원시 데이터는 Wikipedia에서 구할 수 있습니다. 또는 R 패키지 wikipediatrend (Meissner and R Core Team 2016) 에서 가져올 수 있습니다. 응답을 작성할 때 사용한 데이터 소스를 적어 두십시오. (이 동일한 활동은 6 장에도 나타남을 유의하십시오.)이 활동은 큰 데이터 소스에서의 자연스러운 실험에 대한 데이터 논쟁과 연습을 실습 할 것입니다. 또한 향후 프로젝트를 위해 잠재적으로 흥미로운 데이터 소스를 사용하여 작업을 시작할 수 있습니다.
1. Penney (2016) 읽고 Snowden 계시 전후의 "테러리즘"관련 페이지에 대한 페이지 뷰를 보여주는 그림 2를 복제하십시오. 발견 한 내용을 해석하십시오.
2. 다음으로 DHS 목록 (부록 10 및 각주 139 참조)에서 "DHS 및 기타 기관"으로 분류 된 키워드를 사용하여 연구반 ( "테러리즘"관련 기사)과 비교 자 그룹을 비교하는 그림 4A를 복제하십시오. 발견 한 내용을 해석하십시오.
3. 파트 (b)에서 연구반을 하나의 비교 그룹과 비교했습니다. 또한 Penney는 다른 인프라 비교 그룹 인 Infrastructure Security 관련 기사 (부록 11)와 인기있는 Wikipedia 페이지 (부록 12)를 비교했습니다. 다른 비교 그룹을 제안하고, 파트 (b)의 연구 결과가 자신이 선택한 비교 그룹에 민감한 지 여부를 테스트하십시오. 어떤 선택이 가장 합리적입니까? 왜?
4. Penney는 "테러리즘"과 관련된 키워드가 위키 피 디아 기사를 선택하는 데 사용되었다고 말하면서 미국 정부는 테러를 온라인 감시 관행의 주요 근거로 꼽았 기 때문에 이 48 가지 "테러"관련 키워드를 확인하기 위해 Penney (2016) 는 MTurk에 대한 설문 조사를 실시하여 응답자에게 정부 문제, 개인 정보 보호 및 회피 측면에서 각 ht 키워드를 평가하도록 요청했습니다 (부록 7 및 8 ). MTurk에서 설문 조사를 복제하고 결과를 비교하십시오.
5. 파트 (d)의 결과와 기사 읽기를 토대로, 연구반에서 Penney가 선택한 주제 키워드에 동의합니까? 그 이유는 무엇? 그렇지 않다면 대신 무엇을 제안 하시겠습니까?
[ ] Efrati (2016) 는 기밀 정보에 근거하여 Facebook의 "전체 공유"가 전년 대비 약 5.5 % 감소한 반면 "원본 방송 공유"는 전년 대비 21 % 감소했다고보고했습니다. 이 감소는 30 세 미만의 Facebook 사용자에게 특히 심각했습니다. 이 보고서는이 두 가지 요인이 두 가지 요인에 의한 것이라고 지적했다. 하나는 페이스 북에서 사람들이 가진 "친구"의 수가 증가한 것입니다. 다른 하나는 공유 활동이 메시징 및 Snapchat과 같은 경쟁 업체로 이동했기 때문입니다. 이 보고서는 페이스 북이 공유 기능을 향상시키기 위해 시도한 몇 가지 전술을 밝혀냈다. 원본 피드를 더욱 눈에 잘 띄게 만드는 뉴스 피드 알고리즘 개조와 "오늘의 오늘"기능을 사용하여 원래 게시물을 주기적으로 알림. 이러한 결과는 페이스 북을 데이터 소스로 사용하고자하는 연구가에게 어떤 영향을 미칩니 까?
[ ] 사회 학자와 역사가의 차이점은 무엇입니까? Goldthorpe (1991) 에 따르면, 주요 차이점은 데이터 수집에 대한 통제입니다. 역사 학자들은 유물을 사용하도록 강요되지만, 사회 학자들은 데이터 수집을 특정 목적에 맞게 조정할 수 있습니다. Goldthorpe (1991) 읽으십시오. 사회학과 역사의 차이점은 custommades와 readymades의 아이디어와 어떤 관련이 있습니까?
[ ] 이것은 이전 quesiton에 세웁니다. Goldthorpe (1991) 는 Nicky Hart (1994) 가 Goldthorpe의 맞춤형 데이터 작성에 대한 도전에 도전 한 것을 포함하여 여러 가지 중요한 응답을 이끌어 냈습니다. Hart는 맞춤식 데이터의 잠재적 한계를 명확히하기 위해 1960 년대 중반 Goldthorpe와 동료가 실시한 사회 계층과 투표 간의 관계를 측정하기위한 대규모 설문 조사 인 풍요로운 근로자 프로젝트를 설명했습니다. 풍요로운 노동자 프로젝트는 발견 된 데이터를 바탕으로 설계된 데이터를 선호하는 학자로부터 기대할 수있는 것처럼 생활 수준이 증가하는 시대에 사회 계급의 미래에 대해 최근 제안 된 이론을 다루기 위해 맞춤화 된 데이터를 수집했습니다. 그러나 골드 소프 (Goldthorpe)와 동료들은 여하튼 여성의 투표 행동에 관한 정보를 수집하는 것을 잊었다. Nicky Hart (1994) 가 전체 에피소드를 요약 한 방법은 다음과 같습니다.

"여성들의 경험을 배제한 패러다임의 논리로이 '맞춤형'데이터 세트가 한정 되었기 때문에 여성이 생략 된 결론을 피하기가 어렵다. Goldthorpe와 그의 동료들은 계급 의식과 행동에 대한 이론적 인 비전에 따라 남성의 선입견을 얻었습니다. Goldthorpe와 그의 동료들은 적절한 타당성 테스트를 실시하는 대신 이론적 인 가정을 키우고 육성하는 일련의 경험적 증거를 만들었습니다. "

수사슴은 계속했다 :

"풍요로운 노동자 프로젝트의 경험적 발견은 중반 세기 사회학의 남성 주의적 가치에 대해 계층화, 정치 및 물질적 삶의 과정을 알려주는 것보다 더 많은 것을 말해줍니다."

맞춤형 데이터 수집에 내장 된 데이터 수집기의 편차가있는 다른 예를 생각해 볼 수 있습니까? 이것이 알고리즘 혼란과 어떻게 비교 되는가? 연구자가 미리 타자기를 사용해야 할 때와 세관을 사용할 때 어떤 영향을 미칠 수 있습니까?
[ ]이 장에서는 기업과 정부가 만든 행정 기록을 가진 연구원을 위해 연구자가 수집 한 데이터를 대조했습니다. 어떤 사람들은 이러한 관리 기록을 "발견 된 데이터"라고 부르며, 이는 "설계된 데이터"와 대조를 이룹니다. 행정 기록은 연구자에 의해 발견되지만 진실로 설계되었습니다. 예를 들어, 현대 기술 회사는 자신의 데이터를 수집하고 관리하기 위해 열심히 노력합니다. 따라서 이러한 행정 기록은 모두 발견되고 설계되며, 그것은 단지 당신의 관점에 달려 있습니다 (그림 2.12).

그림 2.12 : 그림은 오리와 토끼 다. 당신이 보는 것은 당신의 관점에 달려 있습니다. 큰 데이터 소스는 모두 발견되고 설계됩니다. 다시, 당신이 보는 것은 당신의 관점에 달려 있습니다. 예를 들어 휴대 전화 회사에서 수집 한 통화 데이터 레코드는 연구원의 관점에서 볼 수 있습니다. 그러나이 똑같은 기록은 전화 회사의 청구 부서에서 근무하는 사람의 관점에서 설계된 데이터입니다. 출처 : 월간 대중 과학 (1899) / 위키 미디어 커먼즈 .

데이터 소스를 발견하고 설계 한대로 모두 보는 것이 데이터 소스를 연구에 사용할 때 도움이되는 데이터 소스의 예를 제공하십시오.
[ 사려 깊은 에세이에서 Christian Sandvig과 Eszter Hargittai (2015) 는 디지털 시스템이 "도구"또는 "연구 대상"인지 여부에 따라 디지털 연구를 크게 두 가지 범주로 나눴습니다. 첫 번째 유형의 예 - 시스템이 악기 인 Bengtsson과 동료 (2011) 는 2010 년 아이티 지진 이후에 이동 전화 데이터를 사용하여 이동을 추적하는 연구입니다. 시스템이 연구 대상인 두 번째 종류의 예는 Jensen (2007) 인도의 케 랄라 (Cerala)에서 휴대 전화를 도입하여 어류 시장의 기능에 어떤 영향을 주 었는지에 대해 설명합니다. 이 구분은 디지털 데이터 소스를 사용하는 연구가 동일한 종류의 데이터 소스를 사용하는 경우에도 상당히 다른 목표를 가질 수 있다는 점을 명확히하기 때문에 유용합니다. 이 구별을 더욱 명확히하기 위해, 네 가지 연구를 설명하십시오. 두 가지는 디지털 시스템을 계측기로 사용하고 두 가지는 디지털 시스템을 연구 대상으로 사용하는 것입니다. 원하는 경우이 장의 예제를 사용할 수 있습니다.