2.3.1.1 Big

Grouss Daten sinn e Mëttel op en Enn; si net op en Enn an sech selwer.

Déi éischt vun den dräi gutt Eegenschaften vun grouss Daten ass déi diskutéiert: déi grouss Daten ginn. Dës Donnéeë Quellen kann an dräi verschidde Manéiere grouss ginn: vill Leit, vill vun Informatiounen pro Persoun, oder vill Observatiounen iwwer d'Zäit. eng grouss Donnéeën Spillschoul erméiglecht puer spezifesch Zort vu Recherche-Moossen heterogeneity, rare Evenementer ënnersicht, z'entdecken kleng Differenzen, an causal Schätzunge vun observational Donnéeë bruecht. Et schéngt och zu engem bestëmmten Typ vu sloppiness ze bréngen.

Déi éischt Saach fir déi Gréisst ass virun allem nëtzlech ass doriwwer eraus ronn bewegt Aschätzunge fir spezifesch subgroups ze maachen. Zum Beispill, Gary Kinnek, Jennifer Pan, an Molly Roberts (2013) gemooss der Wahrscheinlechkeet, datt de soziale Medien posts an China géif vun der Regierung censored ginn. Vun selwer duerchschnëttleche Probabilitéit vun Läschen ass net ganz hëllefräich fir ze verstoen firwat d'Regierung e puer posts censors awer net anerer. Mä, well hir Donnéeën 11 Milliounen posts abegraff, Kinnek a Kollegen produzéiert och Aschätzunge fir d'Wahrscheinlechkeet vun Zensur fir posts op 85 trennen Kategorien (zB, klaut, Tibet, a Verkéier zu Peking). Andeems een d'Wahrscheinlechkeet vun Zensur fir posts a verschiddene Kategorien, waren se kënnen Agenda ze verstoen, wéi a firwat d'Regierung censors verschidden Zorte vun posts. No 11 dausend posts (anstatt 11 Milliounen posts), géifen se net hunn gebass gouf dës Kategorie-spezifesch Schätzunge ze produzéieren.

Zweet, gëtt Gréisst allem nëtzlech fir ass vu rare Evenementer ënnersicht. Zum Beispill, Goel a Kollegen (2015) nach d'Weeër ze studéieren, datt Tweets Haren goen kann. Well grouss CASCADES Re-Tweets sinn extrem rar-iwwert een an engem 3000-si waren méi wéi eng Milliard Tweets an Uerdnung ze studéieren genuch grouss CASCADES fir seng Analyse ze fannen.

Drëtt, grouss konsultéieren aktivéiert Fuerscher kleng Differenzen ze erkennen. An Tatsaach, ass vill vun de Schwéierpunkt op grouss Daten an Industrie iwwer dës kleng Differenzen: zouverlässeg den Ënnerscheed tëschent 1% an 1,1% klickt-duerch Tariffer op eng ad z'entdecken an Millioune Dollar zousätzlech Recetten iwwersetze kann. An e puer wëssenschaftleche Astellungen, kéint esou kleng Differenzen net besonnesch wichteg sinn (och wann se statistesch relevant sinn). Mä, an e puer Politik Astellungen, esou kleng Differenzen kann wichteg ginn wou zu ugesammelt gekuckten. wann et zum Beispill, sinn zwee ëffentlech Gesondheet Interventiounen an eent ass liicht méi efficace wéi déi aner, da fir déi méi effikass Interventioun wiessele kéint HIV dausende vun zousätzleche Liewen spueren.

Endlech, Erhéijung eis ëmmer grouss Daten baut daitlech causal Schätzunge vun observational Donnéeën ze maachen. Obwuel grouss Daten déi Problemer do net grondsätzlech mat nees causal Ufank ware aus observational Donnéeën änneren, déi an natierlech Experimenter-zwou Techniken, datt Fuerscher fir nees causal Fuederungen vun observational entwéckelt hunn Daten-souwuel daitlech aus grouss konsultéieren profitéieren. Ech erklären an dëser Fuerderung zu gréissere Detail dat Ganzt spéider an dësem Kapitel, wou ech Recherche Strategien beschreiwen.

Obwuel bigness allgemeng eng gutt Besëtz ass, wann richteg benotzt, hunn ech gemierkt, datt bigness zu engem konzeptuellen Feeler Toast féiert. Fir e puer Grënn, schéngt bigness Fuerscher zu Féierung ze ignoréieren, wéi hir Daten entsteet war. Iwwerdeems bigness der brauchen iwwer zoufälleg Feeler ze berouegen heescht reduzéieren, Erhéijunge et eigentlech de Besoin iwwer systematesch Feeler ze fäerten, datt d'Objektivitéit vun Fehler sin zu méi ënnert déi vun biases opwerft beschreiwen wäert an wéi Donnéeën geschaf a gesammelt. An engem klenge Donnéeën, souwuel zoufälleg Fehler an systematesch Feeler kann wichteg sinn, mä zu engem groussen Donnéeën zoufälleg Feeler ass kann ewech gin averaged a systematesch Feeler herrscht. Fuerscher déi denken do net iwwer systematesch Fehler wäert Faszinatioun mat hirem grousse konsultéieren enger preziser Estimatioun vun der falscher Saach ze kréien; si wäert präzis präzis gin (McFarland and McFarland 2015) .