Одан әрі түсініктеме

Бұл бөлім баяндау ретінде оқылуы тиіс емес, сілтеме ретінде пайдаланылуы үшін арналған.

  • Кіріспе (бөлім 2.1)

Байқаса, бұл бір түрі осы тарауда қамтылған жоқ, этнография болып табылады. Сандық кеңістікте этнографиясы туралы толығырақ қараңыз Boellstorff et al. (2012) , сондай-ақ этнография туралы толығырақ аралас сандық және жеке үй-жайларда қараңыз Lane (2016) .

  • Big Data (бөлім 2.2)

Егер сіз деректерді repurposing кезде, сіз тап болуыңыз мүмкін ықтимал проблемаларды түсінуге көмектеседі екі психикалық фокустар бар. Біріншіден, сіз бұл мәселені үшін тамаша деректер жиынтығын елестету және сіз пайдаланатын деректер жиынының бұл салыстыруға көріңіз. Олар қалай ұқсас және олар қалай әр түрлі? Сіз өзіңіз деректерді жинау емес болса, сен не келсе және қандай сіз бар арасындағы айырма болуы мүмкін бар. Бірақ, осы айырмашылықтар кәмелетке толмаған немесе ірі болса шешуіңіз керек.

Екіншіден, біреу қандай да бір себептермен сіздің деректеріңізді құрылды және жиналған екенін есте сақтаңыз. Сіз олардың пайымдау түсінуге тырысу керек. Кері-инженерлік Мұндай Егер сіз repurposed деректер ықтимал проблемалары мен Бұрмалаушылықтар анықтауға көмектесе алады.

Онда «үлкен деректер» бірде-бір консенсус анықтамасы болып табылады, бірақ көптеген анықтамалары 3 Vs баса назар көрінуі: көлемі, эстрадалық және жылдамдығы (мысалы, Japec et al. (2015) ). Керісінше деректер сипаттамалары назар аудара отырып қарағанда, менің анықтау көп деректер құрылды неге назар аударады.

Big Data санатына ішіндегі мемлекеттік әкімшілік деректерді Менің енгізу сәл ерекше болып табылады. Осы істі жасады Басқа, қамтиды Legewie (2015) , Connelly et al. (2016) , сондай-ақ Einav and Levin (2014) . Зерттеу үшін мемлекеттік әкімшілік деректерді құндылығы жайлы көбірек алу үшін, қараңыз Card et al. (2010) , Taskforce (2012) , сондай-ақ Grusky, Smeeding, and Snipp (2015) .

Үкімет статистикалық жүйесінің, әсіресе АҚШ-тың халық санағы бюросы ішінен әкімшілік зерттеу мақсатында үшін, қараңыз Jarmin and O'Hara (2016) . Статистика Швеция әкімшілік жазбалар зерттеу кітабы ұзындығы емдеу үшін, қараңыз Wallgren and Wallgren (2007) .

тарауда мен қысқаша осындай Twitter сияқты әлеуметтік медиа деректер көзіне мұндай Бас әлеуметтік зерттеу (GSS) ретінде дәстүрлі сауалнама салыстырғанда. Дәстүрлі зерттеулер және әлеуметтік медиа деректер арасындағы жан-жақты және мұқият салыстыру үшін, қараңыз Schober et al. (2016) .

  • Big Data жалпы сипаттамасы (бөлім 2.3)

Big Data Бұл 10 сипаттамалары әр түрлі авторлардың әр түрлі әр түрлі әр түрлі жолдармен сипатталған болатын. Осы мәселелер бойынша ойымды әсер Жазу қамтиды: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , сондай-ақ Goldstone and Lupyan (2016) .

Осы тарауда бойы Мен салыстырмалы түрде бейтарап болып ойлаймын мерзімді сандық іздері, қолдандым. Сандық іздері тағы бір танымал мерзімді сандық іздері табылады (Golder and Macy 2014) , бірақ Хэл Abelson, Кен Ledeen, және Гарри Льюис ретінде (2008) атап, неғұрлым тиісті қысқа мерзімді, бәлкім, сандық саусақ іздері табылады. Егер сіз іздері жасағанда, сіз не болып жатқанын біледі және өз іздері, әдетте, жеке сізге байқауға мүмкін емес. сол сіздің сандық іздері олай емес. Шын мәнінде, сіз іздері сіз өте аз білімі бар, ол туралы барлық уақыт қалдырып отыр. Осы іздері оларға өз атын жоқ, дегенмен, және, олар жиі сізге қайтып байланысты болуы мүмкін. көрінбейтін және жеке сәйкестендіру: Басқаша айтқанда, олар бірнеше саусақ ізін ұқсайды.

үлкен

Проблемалық статистикалық сынақтар көрсетуге неге үлкен деректер, туралы қосымша алу үшін, қараңыз Lin, Lucas, and Shmueli (2013) және McFarland and McFarland (2015) . Бұл мәселелер практикалық маңызы гөрі статистикалық маңызы баса назар зерттеушілер әкелуі тиіс.

Әрқашан қосулы

әрқашан қосулы қараған кезде деректер, ол сіз ұзақ уақыт бойы дәл сол адам салыстыру ма немесе сіз адамдардың кейбір өзгерту тобын салыстыру ма қарастыру маңызды болып табылады; мысалы қараңыз Diaz et al. (2016) .

Non-реактивті

Емес реактивті шаралар туралы классикалық кітап Webb et al. (1966) . Кітап алдын-ала күні мысалдар сандық жасы, бірақ олар әлі де жарықтандыру жатыр. Өйткені жаппай қадағалау қатысуымен олардың мінез-құлқын өзгерту халқының мысалдар үшін, қараңыз Penney (2016) және Brayne (2014) .

толық емес

Рекордтық байлау туралы қосымша алу үшін, қараңыз Dunn (1946) және Fellegi and Sunter (1969) (тарихи) және Larsen and Winkler (2014) (осы заманғы). Жақындап ұқсас, сондай-ақ анықтау қайталамайды, мұндай деректер дедупликации, сатыдағы сәйкестендіру, аты сәйкестік ретінде атаулармен информатика әзірленген, және рекордтық анықтау қайталамайды болатын (Elmagarmid, Ipeirotis, and Verykios 2007) . Жеке ақпаратты анықтау беруді талап етпейтін рекордтық байлау тәсілдерін сақтай құпиялылық сондай-ақ бар (Schnell 2013) . Facebook, сондай-ақ дауыс беру мінез-құлқын, олардың жазбаларын сілтейді кірісеміз әзірледі; Осы Мен 4-тарауында туралы баяндаймын эксперимент бағалау үшін жасалды (Bond et al. 2012; Jones et al. 2013) .

Конструкция қолданылу туралы қосымша алу үшін, қараңыз Shadish, Cook, and Campbell (2001) , 3-тарау.

қол жетпес

AOL іздеу журналы ұшырады туралы қосымша алу үшін, қараңыз Ohm (2010) . Мен эксперименттер сипаттау кезде 4-тарауында компаниялар мен үкіметтерімен әріптестік туралы кеңес ұсынамыз. Бірқатар авторлардың жетпейтін деректер сүйенеді зерттеулер алаңдаушылық, қараңыз білдірді Huberman (2012) және boyd and Crawford (2012) .

университет зерттеушілер деректер қол жеткізуді сатып алуға арналған бір жақсы жолы стажер немесе бару зерттеуші ретінде компанияда жұмыс істеу. деректер қол жеткізуін қамтамасыз қатар, бұл процесс, сондай-ақ талдау үшін маңызды болып табылатын, зерттеуші деректер құрылды туралы қосымша ақпарат алу көмектеседі.

Non-өкілі

Non-репрезентативтілігі бүкіл халықтың шамамен мәлімдеме жасады келеді зерттеушілер және үкімет үшін негізгі проблема болып табылады. Бұл әдетте олардың пайдаланушылар шоғырланған компаниялар үшін алаңдаушылық аз болып табылады. Статистика Нидерланды бизнес емес өкілдігі Big Data мәселесін қарастырады туралы қосымша алу үшін, қараңыз Buelens et al. (2014) .

3-тарауда, Мен көп толығырақ іріктеуді және бағалауды сипаттайды болады. деректер емес өкілі болса да, белгілі бір жағдайларда, олар жақсы сметасын шығаруға өлшенген болуы мүмкін.

Жұқа

Жүйе дрейф сырттан көруге өте қиын. Алайда, (одан 4-тарауында талқыланды) MovieLens жоба академиялық ғылыми-зерттеу тобымен 15 жылдан астам бойы іске қосыңыз. Сондықтан, олар ұзақ уақыт бойы жүйелі дамыды және бұл қалай талдау әсер етуі мүмкін осылай туралы ақпаратты құжатталған және бөлісті (Harper and Konstan 2015) .

Ғалымдар бірқатар Twitter дрейф бағытталған: Liu, Kliman-Silver, and Mislove (2014) және Tufekci (2014) .

алгоритмдік әбден абыржытты

Мен бірінші термин баяндамаға Jon Kleinberg пайдаланатын «алгоритмдік әбден абыржытты» естіген. Performativity артта негізгі идеясы кейбір әлеуметтік ғылым теориялар «қозғалтқыштар емес камералар» болып табылады (Mackenzie 2008) . Яғни олар шын мәнінде әлемді қалыптастыруға ғана емес, оны жаулап болып табылады.

лас

Үкіметтік статистикалық агенттіктер. Деректер жинау, статистикалық деректер редакциялау қоңырау De Waal, Puts, and Daas (2014) зерттеу деректеріне арналған әзірленген статистикалық деректерді өңдеу әдістерін сипаттау және олар үлкен деректер көздері, және қолданылатын дәрежеде қарауға Puts, Daas, and Waal (2015) неғұрлым жалпы аудитория үшін бірдей идеялар кейбір ұсынады.

Twitter спам бағытталған зерттеулер кейбір мысалдарын, Clark et al. (2016) және Chu et al. (2012) . Соңында, Subrahmanian et al. (2016) DARPA Twitter Bot Challenge нәтижелерін сипаттайды.

сезімтал

Ohm (2015) құпия ақпаратты идеясына бұрын зерттеулер қарайды және көп факторлы тест ұсынады. Ол ұсынады төрт факторлар болып табылады: зиян ықтималдығы; зиян ықтималдығы; құпия қарым-қатынас болуы; және ма тәуекел Мажоритарлық алаңдаушылық көрсетеді.

  • Есеп заттар (бөлім 2.4.1)

Нью-Йоркте такси Фарбер ның зерттеу арқылы ертерек зерттеу негізінде құрылды Camerer et al. (1997) рет, аяқталу уақытын, және тариф бастау сапар жазу үшін жүргізушілердің пайдаланылатын қағаз сапары парақ қағаз нысандарын үш түрлі ыңғайлы үлгілерін пайдаланылады деп. олар кем жұмыс істеген, олардың жалақысы жоғары болды күндері: Бұл бұрын зерттеу жүргізушілер мақсатты табыскерлер болып көрінген, бұл табылған.

Kossinets and Watts (2009) әлеуметтік желілерде homophily қайнар баса назар аударылды. Қараңыз Wimmer and Lewis (2010) Facebook деректерді пайдаланады, сол мәселенің түрлі көзқарас.

Кейінгі жұмысында, патша мен әріптестер әрі қарай Қытайда интернет цензурасын барланған қойды (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Қытайда интернет цензурасын өлшеу байланысты көзқарас, қараңыз Bamman, O'Connor, and Smith (2012) . Пайдаланылатын сияқты статистикалық әдістері туралы қосымша алу үшін King, Pan, and Roberts (2013) 11 млн лауазымдарының сезімдерін бағалауға, қараңыз Hopkins and King (2010) . Жетекшілік ететін оқыту туралы қосымша алу үшін, қараңыз James et al. (2013) (кем техникалық) және Hastie, Tibshirani, and Friedman (2009) (техникалық).

  • Болжау (бөлім 2.4.2)

Болжау индустриялық деректер ғылым үлкен бөлігі болып табылады (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Әдетте әлеуметтік зерттеушілер жасалады болжау бір түрі, мысалы, демографиялық болжау болып табылады Raftery et al. (2012) .

Google тұмауын Trends тұмау таралуын nowcast іздеу деректерін пайдалануға алғашқы жоба емес. Шын мәнінде, Америка Құрама Штаттарында зерттеушілер (Polgreen et al. 2008; Ginsberg et al. 2009) және Швеция (Hulth, Rydevik, and Linde 2009) белгілі бір іздеу терминдер деп тапты (мысалы, «тұмау») ұлттық денсаулық сақтау қадағалауды болжамды ол босаған бұрын деректер. Кейіннен көптеген басқа да жобалар қараңыз, ауру бақылау анықтау үшін сандық ізі деректерді пайдалануға тырыстық Althouse et al. (2015) қарау үшін.

денсаулық сақтау нәтижелерін болжау үшін сандық ізі деректерді пайдалана отырып, қосымша, сондай-ақ, сайлау нәтижелерін болжау Twitter деректерді пайдалана жұмыс үлкен сомасы болды; шолу қараңыз Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) және Huberty (2015) .

тұмау таралуын болжау және сайлау әлемдегі іс-шараның қандай болжау сандық іздің кейбір түрін қолданып екі мысалдары болып табылады болжау Twitter деректерді пайдалана отырып, іздеу деректерді пайдалану. Бұл жалпы құрылымы бар зерттеулер үлкен саны. Кесте 2.5 бірнеше басқа мысалдар қамтиды.

Кесте 2.5: кейбір оқиғаны болжауға кейбір сандық із пайдалануға зерттеулер ішінара тізімі.
сандық ізі нәтиже дәйексөз
Twitter АҚШ-та фильмдер Box Office табыс Asur and Huberman (2010)
Іздеу журналдары АҚШ-та кино, музыка, кітаптар, ойындар мен бейне сату Goel et al. (2010)
Twitter Dow Jones Industrial Average (АҚШ қор нарығының) Bollen, Mao, and Zeng (2011)
  • Жақындатуға эксперименттер (бөлім 2.4.3)

Журналы PS саясаттану үлкен деректер, себептік қорытындылау және формальды теориясы бойынша симпозиум болды, және Clark and Golder (2015) әрбір үлес қорытындылайды. Америка Құрама Штаттарының Ұлттық ғылым академиясының журналы материалдары себептік шығару және үлкен деректер бойынша симпозиум болды, және Shiffrin (2016) әрбір үлес қорытындылайды.

Табиғи эксперимент тұрғысынан, Dunning (2012) керемет кітап ұзындығы емдеу қамтамасыз етеді. Табиғи эксперимент ретінде Вьетнам жобасын лотерея пайдалану туралы қосымша алу үшін, қараңыз Berinsky and Chatfield (2015) . Big Data көздерінің ішіндегі табиғи эксперименттерді автоматты түрде табу үшін әрекет машина оқыту тәсілдерін, қараңыз Jensen et al. (2008) және Sharma, Hofman, and Watts (2015) .

Сәйкестік тұрғысынан, оптимистік қарау үшін, қараңыз Stuart (2010) , және пессимистік қарауға қараңыз Sekhon (2009) . Кесу түрі ретінде сәйкес туралы қосымша алу үшін, қараңыз Ho et al. (2007) . Сәйкестік тамаша емдеу қамтамасыз кітаптар үшін, қараңыз Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , сондай-ақ Imbens and Rubin (2015) .