2.3.1.1 Nagy

Ez a fordítás által létrehozott egy számítógép. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.3.1.1 Nagy

Nagy adathalmazok egy eszköz a cél; ezek nem öncélúak.

Az első a három jó tulajdonságait nagy adatok legtöbbet tárgyalt: ezek nagy adat. Ezek az adatforrások nagy lehet háromféleképpen: sok ember, sok információt fejenként, vagy sok észrevételt idővel. Miután egy nagy adatbázisba teszi néhány speciális típusát kutatás-mérő heterogenitás, tanul ritka események, észlelése kis különbségek, és hogy ok-okozati becslések megfigyelési adatok. Úgy tűnik, hogy vezet egy bizonyos típusú hanyagságot.

Az első dolog, amelyek mérete különösen hasznos mozog túl átlagok hogy megbecsüli az adott alcsoportok. Például, Gary King, Jennifer Pan, és Molly Roberts (2013) mérve a valószínűsége, hogy a közösségi média üzenete Kínában lenne cenzúrázzák a kormány. Önmagában ez az átlagos valószínűsége törlés nem nagyon segít megismerni a kormány miért cenzúrázza néhány hozzászólás, de nem mások. De, mert a benne adatbázisba 11000000 üzenetét King és munkatársai is készített becslések a valószínűsége cenzúra állások 85 különböző kategóriákba (például pornográf, Tibet, és a forgalom Peking). Ha összehasonlítjuk a valószínűsége cenzúra állások különböző kategóriákban, tudták, hogy jobban megértsük, hogyan és miért a kormány cenzúrázza bizonyos típusú hozzászólások. A 11 ezer álláshely (helyett 11 millió álláshely), akkor nem lett volna képes előállítani ezeket kategória-specifikus becslések.

Másodszor, a méret különösen hasznos tanulmányozza a ritka események. Például Goel és munkatársai (2015) akarta, hogy tanulmányozza a különböző módon, hogy tweets mehet vírus. Mivel a nagy kaszkád újra tweets rendkívül ritka körülbelül egy a 3000-szükségük, hogy tanulmányozza több mint egy milliárd tweet annak érdekében, hogy megtalálják elég nagy kaszkád számára azok elemzését.

Harmadszor, nagy adatkészletek segítségével a kutatók felismerni kis különbségek. Tény, hogy sok a hangsúly a nagy adat az iparban ezekről a kis különbségek: megbízható kimutatására a különbség 1% és 1,1% az átkattintási arányok ad lefordítani millió dolláros extra bevételt. Egyes tudományos beállításokat, például a kis különbségek nem lehetnek különösen fontos (még ha statisztikailag szignifikáns). De néhány politikai beállítások, például a kis különbségek válhat fontos nézve összevontan. Például, ha van két közegészségügyi beavatkozások, valamint egy kissé hatékonyabb, mint a másik, akkor váltás a hatékonyabb beavatkozás a végén megtakarítás ezer további életét.

Végül, nagy adathalmazok nagyban növeli a képességét, hogy az ok-okozati becslések megfigyelési adatok. Bár a nagy adathalmazok nem alapvetően megváltoztatja a problémákat, hogy ok-okozati következtetés a megfigyeléses adatok megfelelő és természetes kísérleteket-két technikát, hogy a kutatók kifejlesztettek készítésére oksági állítások a megfigyeléses adatok mindkettő rendkívül hasznos a nagy adathalmazok. Elmagyarázom, illetve illusztrálja ezt az állítást részletesebben később ebben a fejezetben amikor leírom kutatási stratégiák.

Bár nagyság általában egy jó tulajdonság, ha helyesen használják, azt vettem észre, hogy a nagyság gyakran vezet fogalmi hiba. Valamilyen oknál fogva, nagyság látszik vezetni a kutatókat, hogy figyelmen kívül hagyja, hogy hogyan adataikat keletkezett. Míg nagyság nem csökkenti annak szükségességét, hogy aggódnia a véletlen hiba, akkor valóban növeli az kell aggódnia, szisztematikus hibákat, a fajta hibák fogom leírni az alábbiakban további fakadó torzítások milyen adatok jönnek létre, és összegyűjtjük. Egy kis adatbázisba, a véletlen hiba és a szisztematikus hiba lehet fontos, de egy nagy adatbázisba véletlen hiba lehet átlagolni el és szisztematikus hiba dominál. A kutatók, akik nem gondolnak a rendszeres hiba a végén segítségével a nagy adatbázisok, hogy egy pontos becslést a rossz dolog; lesznek pontosan pontatlan (McFarland and McFarland 2015) .