2.2 Big adatok

Ez a fordítás által létrehozott egy számítógép. ×

2.2 Big adatok

A vállalatok és a kormányok nagy mennyiségű adatot hoznak létre és gyűjtenek a kutatáson kívüli célokra. Ezeknek az adatoknak a felhasználása a kutatáshoz ezért újratelepítést igényel.

Az első, hogy sok ember találkozik a digitális társadalomban a társadalomkutatással, gyakran nevezik nagy adatoknak . Annak ellenére, hogy széles körben elterjedt ez a kifejezés, nincs egyetértés arról, hogy milyen nagy adatok is. A nagy adatok egyik leggyakoribb definíciója azonban a "3 Vs": Volume, Variety és Velocity. Rengeteg adat van, különböző formátumokban, és folyamatosan létrejön. Néhány rajongó a nagy adatok is hozzá más "Vs", mint a Veracity és érték, míg néhány kritikus hozzá Vs, mint a Vague és Vacuous. Ahelyett, hogy a 3 "Vs" (vagy az 5 "Vs" vagy a 7 "Vs"), a társadalmi kutatás céljaira, azt hiszem, jobb kiindulópont az 5 "Ws": Ki, Mi, , és miért. Valójában úgy gondolom, hogy a nagy adatforrások által létrehozott kihívások és lehetőségek nagy része csak egy "W" -ből származik: Miért.

Az analóg korszakban a társadalomkutatásban használt adatok nagy részét a kutatás elvégzéséhez hozták létre. A digitális korszakban azonban a vállalatok és a kormányok hatalmas mennyiségű adatot hoznak létre a kutatáson kívüli célokra, például szolgáltatásokat nyújtanak, nyereséget generálnak és törvényeket adnak. A kreatív emberek azonban felismerték, hogy akkor újra terveink ezt a vállalati és kormányzati adatok a kutatás. Az 1. fejezet művészeti analógiájára gondolva, ahogyan Duchamp újra létrehozott egy objektumot, hogy művészetet hozzon létre, a tudósok most újra felfedhetik a talált adatokat, hogy kutatást alkossanak.

Bár kétségtelenül óriási lehetőségek vannak a repurposing-re, az olyan adatok felhasználása, amelyek nem a kutatás céljára készültek, új kihívásokat is jelent. Például egy olyan közösségi médiaszolgáltatás, mint például a Twitter, egy hagyományos közvélemény-felméréssel, például az Általános társadalmi felméréssel. A Twitter fő célja az, hogy szolgáltatásokat nyújtson a felhasználóknak és profitot teremtsen. Az Általános Társadalmi felmérés azonban elsősorban a társadalomkutatás általános célú adatainak létrehozására összpontosít, különösen a közvéleménykutatásban. Ez a különbség a célok között azt jelenti, hogy a Twitter által létrehozott adatok és az Általános Társadalmi felmérés által létrehozott adatok eltérő tulajdonságokkal rendelkeznek, jóllehet mindkettő felhasználható a közvélemény tanulmányozására. A Twitter olyan skálán és sebességgel működik, amelyet az Általános szociális felmérés nem tud összeilleszteni, de az Általános szociális felmérésektől eltérően a Twitter nem gondosan megvizsgálja a felhasználókat, és nem keményen dolgozik az időben történő összehasonlíthatóság fenntartása érdekében. Mivel ez a két adatforrás annyira különböző, nincs értelme azt mondani, hogy az általános szociális felmérés jobb, mint a Twitter vagy fordítva. Ha globális hangulatú Golder and Macy (2011) (pl. Golder and Macy (2011) ), a Twitter a legjobb. Másrészt, ha meg akarjuk érteni a hosszú távú változásokat az attitűdök polarizációjában az Egyesült Államokban (pl. DiMaggio, Evans, and Bryson (1996) ), akkor az általános szociális felmérés a legjobb választás. Általánosabban, ahelyett, hogy megpróbálnák azt állítani, hogy a nagy adatforrások jobbak vagy rosszabbak, mint más típusú adatok, ez a fejezet megpróbálja tisztázni, hogy milyen típusú kutatások a nagy adatforrásokra vonzó tulajdonságokkal rendelkeznek, és milyen típusú kérdéseket nem lehet ideál.

A nagy adatforrásokra való tekintettel számos kutató azonnal összpontosít a vállalatok által létrehozott és gyűjtött online adatokra, például a keresőmotorok naplóira és a közösségi médiában. Ez a szűkkörű figyelem azonban két másik fontos adatforrást tartalmaz. Először is egyre inkább a vállalati nagy adatforrások a fizikai világ digitális eszközeiből származnak. Például ebben a fejezetben elmondom neked egy olyan tanulmányt, amely a szupermarket-check-out adatokat átnézte, hogy tanulmányozzák, hogy a munkatársak termelékenységét befolyásolja-e társaik termelékenysége (Mas and Moretti 2009) . Ezután a későbbi fejezetekben elmondom, hogy a mobiltelefonok (Blumenstock, Cadamuro, and On 2015) használó kutatók (Blumenstock, Cadamuro, and On 2015) és az elektromos segédprogramok által (Allcott 2015) számlázási adatokat (Allcott 2015) . Amint ezek a példák szemléltetik, a vállalati nagy adatforrások többet jelentenek, mint az online viselkedés.

A nagy adatok második fontos forrása, amelyet az online magatartás szűk körű kihívásai követnek el, a kormányok által létrehozott adatok. Ezek a kormányzati adatok, amelyeket a kutatók kormányzati nyilvántartásoknak neveznek, tartalmaznak olyan dolgokat, mint az adórekordok, iskolai feljegyzések és létfontosságú statisztikai adatok (pl. Születési és halálozási nyilvántartások). A kormányok ilyen jellegű adatokat hoztak létre bizonyos esetekben, több száz éven át, és a társadalomtudósok csaknem mindaddig kihasználták őket, amíg léteznek társadalomtudósok. Azonban megváltozott a digitalizálás, ami drámaian megkönnyítette a kormányok számára az adatok gyűjtését, továbbítását, tárolását és elemzését. Például ebben a fejezetben elmondhatok egy tanulmányról, amely a New York-i kormány digitális mérőóráinak adatainak helyreállítását célozta meg, hogy foglalkozzon a munkaerő-gazdaságtanban (Farber 2015) . Ezután a későbbi fejezetekben elmondom, hogy a kormányzat által gyűjtött szavazati feljegyzéseket felhasználták egy felmérésben (Ansolabehere and Hersh 2012) és egy kísérletben (Bond et al. 2012) .

Úgy vélem, hogy a repurposing eszméje alapvető fontosságú a nagy adatforrásokból történő tanuláshoz, ezért mielőtt konkrétabban beszélnék a nagy adatforrások tulajdonságairól (2.3. Szakasz) és arról, hogyan lehet ezeket használni a kutatásban (2.4. Szakasz), szeretnék hogy két általános tanácsot adjon a repurposingről. Először is, csábító lehet gondolni a kontrasztot, amelyet "talált" adatok és "tervezett" adatok között állítottam fel. Ez közel van, de nem igaza van. Annak ellenére, hogy a kutatók szemszögéből "nagyszámú adatforrást találnak", nemcsak az égből esnek. Ehelyett a "kutatók" által talált adatforrásokat valamilyen célból tervezik valakinek. Mivel a "talált" adatokat valaki tervezte, mindig ajánlom, hogy megpróbáljon megérteni a lehető legtöbbet az adatok létrehozó személyeiről és folyamatairól. Másodszor, amikor újratermeli az adatokat, gyakran rendkívül hasznos lehet elképzelni a probléma ideális adatkészletét, majd összehasonlítani azt az ideális adatkészletet, amelyik az Ön által használt. Ha magad nem gyűjted össze az adatait, akkor valószínűleg fontos különbségek vannak a kívánt és az Ön számára. Ha észleli ezeket a különbségeket, segít tisztázni, hogy mit tud és nem tud tanulni az Ön által megadott adatokból, és esetleg új adatokat lehet gyűjteni.

Tapasztalatom szerint a társadalomtudósok és az adatok tudósai nagyon eltérő módon közelednek a repurposzáshoz. A társadalomtudósok, akik megszokták a kutatásra szánt adatokkal való munkát, tipikusan gyorsan mutatják fel a repurposed adatok problémáit, figyelmen kívül hagyva annak erősségeit. Másrészt az adatgyűjtők jellemzően gyorsan mutatják ki a visszaadott adatok előnyeit, figyelmen kívül hagyva a gyengeségeit. Természetesen a legjobb megközelítés hibrid. Vagyis a kutatóknak meg kell érteniük a nagy adatforrások - mind a jó, mind a rossz tulajdonságait -, majd kitalálni, hogyan tanuljanak tőlük. És ez a terv a fejezet hátralevő részében. A következő részben a nagy adatforrások tíz közös jellemzőjét fogom leírni. Ezután a következő részben három kutatási megközelítést fogok leírni, amelyek jól működhetnek az ilyen adatokkal.