2.2 Big Donnéeën

Grouss Daten ginn erstallt a gesammelt fir Betriber a Regierungen fir aner Zwecker wéi d'Recherche. Dës Donnéeë fir Fuerschung benotzen dofir, datt se erëmfonnt ginn.

Déi éischt Manéier, déi vill Leit op sozialer Fuerschung am digitale Alter stinn, ass duerch dat wat häuflech als groussen Daten genannt gëtt . Trotz der Verbreedung vun dësem Begrëff ass et kee Konsens iwwer déi grouss Daten och. Allerdéngs läit eng vun den heefegste Definitioun vu groussen Donnéeën op d'"3 V": Volume, Variety an Velocity. A grond ass et vill Daten, a verschiddene Formater an et gëtt permanent konstant. E puer Supportere vu groussen Daten addéieren och aner "Vs" wéi Verazitéit a Wäert, woubäi verschidde Kritiker Vs wéi Vague and Vacuous sinn. Anstatt déi 3 "Vs" (oder de 5 "V" oder d'7 "Vs."), fir den Zweck vun der sozialer Fuerschung, denken ech, ass e bessert Plaz fir ze starten ass de 5 "Ws": Wien, wat, Wou Wann , a Firwat. Tatsächlech sinn ech der Meenung, datt vill vun den Herausfuerderungen an Opmierksamkeet vun groussen Datenquellen aus enger "W" folgend sinn: Firwat.

Am analoge Alter ass de gréissten Deel vun den Donnéeën, déi fir sozialer Fuerschung benotzt ginn, fir den Zweck fir Recherchen ze maachen. Am digitale Alter sinn awer e grousst Betrag vun Daten aus Firmen a Regierungen fir aner Zwecker als Fuerschung geschaf, wéi d'Servicer, d'Gewënn generéieren an d'Gesetz ze verwalten. Kreativ Leit, allerdéngs hu realiséiert, datt Dir dëst juristescher a Regierung Daten fir Fuerschung repurpose kann. Denk drun an d'Illustratioun vum Keeser am Kapitel 1, grad wéi d'Duchamp erëmfonnt huet, d'Art a Kultur ze kreien, kënnen d'Wëssenschaftler elo erëm Daten erkenne fir d'Recherche ze kreéieren.

Obwuel et en Zweifel grouss Opportunitéiten fir ze bestrooft ginn, ginn déi Daten, déi net fir d'Fuerschung benotzt ginn, och nei Herausfuerderungen. Vergläicht, zum Beispill, e sozialen Netzwierk, wéi Twitter, mat enger traditioneller ëffentlecher Fuerschung, wéi d'General Social Survey. Twitter den Haaptziler si fir e Benotzer seng Servicer ze bidden an e Gewënn ze maachen. D'General Social Survey, op der anerer Säit, konzentréiert sech op d'Schafung vun allgemenge Zwecker fir d'Sozialfuerschung, besonnesch fir d'Public Research Recherche. Dës Zert Ënnerscheed bedeit datt d'Donnéeën vun Twitter an déi déi vun der General Social Survey geschaf ginn hunn verschidden Ënnerscheeder, obwuel si zwee kënnen ëffentlech studéieren. Twitter betreet op enger Skala a Schnelle, déi d'General Social Survey net iwwerdenken kann, awer, am Géigesaz zu der General Social Survey, Twitter mécht d'Benotzer net suergfälteg an d'Benotzer an hëllt net schwéier fir d'Verfaassung mat der Zäit ze verhandelen. Well dës zwee Datenquellen esou ënnerschiddlech sinn, ass et net Sënn fir ze soen datt d'General Social Survey besser ass wéi Twitter oder um Viraussatz. Wann Dir gäre Stater Moossnahmen vun der globaler Stëmmung wëllt (zB Golder and Macy (2011) ), Twitter ass besser. Op där anerer Säit, wann Dir wëllt laangfristeg Verännerunge vun der Polariséierung vun Haltungen an den USA verstoen (zB DiMaggio, Evans, and Bryson (1996) ), dann ass d'General Social Survey déi bescht Auswiel. Am Allgemengen, anstatt et ze probéieren, datt grouss Datenquellen besser oder méi schlëmm wéi aner Typen vu Daten sinn, wäert dëst Kapitel d'Klärung fir déi verschidden Wëssensfragen stellen grouss Datenquellen attraktiv Objekte hunn an fir wéi eng Form vu Froen déi se net wieren ideal.

Wann Dir un déi grouss Datenquelle denkt, sinn vill Fuerscher direkt d'Online-Daten fokusséiert a gesammelt vu Gesellschaften, wéi zB Suchmaschinprotokoller a sozialen Medienplazen. Dëst schréissten Fokus erlaabt zwee aner wichtë Quelle vu groussen Daten. Éischt méi grouss Firmen mat grousser Datenquelle kommen aus digitale Geräter an der kierperlecher Welt. Zum Beispill, an dësem Kapitel wäert ech Iech iwwer eng Etude soen, datt déi Supermarché Check-Out Daten unzefroen, fir ze studéieren, wéi d'Produktivitéit vun engem Aarbechter duerch d'Produktivitéit vun hiren Kollegen (Mas and Moretti 2009) . Duerno wäert ech a spéider Kapitelen Iech iwwer d'Fuerscher informéieren, déi Telefonsgespréich vu Mobiltelefonen hunn (Blumenstock, Cadamuro, and On 2015) an d'Rechnungen vu elektresche (Allcott 2015) . Wéi dës Beispiller illustrieren, sinn Firmen grouss Datenquelle ongeféier méi wéi just online Verhalen.

Déi zweet wichteg Quell vu grouss Daten, déi duerch eng schmuel Fokus op Online Verhalen vermësst ginn ass dat Daten vun Regierungen. Dës Regierungsdaten, déi d'Fuerscher d' Verwaltungsaufsëcherungsgesetz iwwerruffen, gehéieren esou Saachen wéi Steiersaarten, Schoulrekorden a vital Statistik-Datebank (z. B. Gebuerten an Doudesfäll). D'Regierungen schloen dës Zort vun Daten fir a ville Fäll Honnerte vu Joer a Sozialwëssenschaftler hunn se fir bal sou laang wéi se Sozialwëssenschaftler hunn. Wat awer geännert huet, ass d'Digitaliséierung, déi et fir d'Regirung dramatesch leeft, fir Daten ze sammelen, ze iwwerhuelen, ze späicheren an ze analyséieren. Zum Beispill, an dësem Kapitel ech soen Iech iwwer eng Etude, déi Daten aus den digitale Taxismeter vun der New York City Regierung hunn, fir eng fundamental Debatte an der Arbechtswirtschaft (Farber 2015) ze bewegen. Duerno wäert ech a spéider Kapitelen Iech soen wéi d'Regierungsmembere fir (Ansolabehere and Hersh 2012) enger Ëmfro gemaach goufen (Ansolabehere and Hersh 2012) an en Experiment (Bond et al. 2012) .

Ech denken, datt d'Idee vum Opféierungsgrond fond ass, fir vu grousser Datenquelle ze léieren, a sou datt et méi spezifesch iwwer d'Eegeschafte vu groussen Datenquellen gesäit (Abschnitt 2.3) a wéi dës kann an der Fuerschung benotzt ginn (Abschnitt 2.4) fir zwee Stécker vun allgemeng Rotschléi iwwer e Wiederkonditiounen ze bidden. Eischtens kann et verlaangen, iwwer den Kontrast ze denken, deen ech hunn wéi tëschent "fonnt" Daten an "entwéckelt" Daten. Dat ass naischt, awer et ass net ganz richteg. Och wann aus der Perspektiv vu Fuerscher grouss Datenquellen "fonnt ginn" sinn se net nëmmen vum Himmel. Andeems dat Datenquellen déi "Forscher" fonnt gi sinn, si vu jidderengem gemaach. Well "Daten fonnt" sinn vun engem Benotzer entworf ginn, ech recommandéiere ëmmer datt Dir versicht, sou vill wéi méiglech ze verstoen iwwer d'Leit a Prozesser déi Är Donnéeën erstallt hunn. Zweetens, wann Dir Donnéeë sinn, ass et oft extrem wichteg datt Dir e Idealdatum fir Är Problem virstellen an dann mat deem ideelle Dataset mat deem, deen Dir benotzt, vergläichen. Wann Dir Är Donnéeën net sammelen hutt, ginn et wahrscheinlech wichtegen Ënnerscheeder tëscht deem wat Dir wëllt an wat Dir hutt. Dës Ënnerscheeder kënnen ze klären, wat Dir maache kënnt an net vun den Donnéeën, déi Dir hutt, léiere kënnen, an et kann Iech nei Daten proposéieren déi Dir sammelen.

A menger Erfahrung hunn d'Sozialwëssenschaftler an d'Datenwëssenschaftler éischter ënnerschiddlech ze modifizéieren. D'Sozialwëssenschaftler, déi gewinnt sinn mat Daten déi fir Forschung entwéckelt ginn, ginn normalerweis séier d'Problemer mat repetéiert Donnéeën ze ignoréieren, während hir Stäerkt ignoréiert. Awer aner Wëssenschaftler si normalerweis séier, d'Virdeeler vun bestroft Donnéeën ze weisen an awer d'Schwächen ignoréieren. Natierlech ass de beschten Approche eng Hybrid. Dëst ass d'Fuerscher d'Charakteristiken vun grousser Datenquelle ze verstoen - sou gutt a schlecht - a stellen sech erauszefannen wéi se vun hinnen léieren. An dat ass de Plang fir de Rescht vum Kapitel. Am nächste Kapitel beschreift ech zéng gemeinsame Charakteristiken vu groussen Datenquellen. Dann, am folgendem Abschnitt beschreift ech dräi Fuerschungsassociatiounen, déi gutt mat esou Donnéeën ariichten.