2.4.1 Počítání věci

Jednoduché počítání může být zajímavé, pokud budete kombinovat je dobrá otázka s dobrými daty.

Ačkoli je formulován v sofistikovaném zvuku, spousta společenského výzkumu opravdu počítá věci. Ve věku velkých dat mohou vědci spočítat více než kdy jindy, ale to neznamená, že by měli začít počítat náhodně. Místo toho by se výzkumní pracovníci měli ptát: Co stojí za to počítat? To se může zdát jako zcela subjektivní záležitost, ale existují některé obecné vzorce.

Často studenti motivují svůj výzkum počítání tím, že řeknou: "Budu počítat něco, co nikdo předtím nepočítal. Například student by mohl říci, že mnoho lidí studovalo migranty a mnoho lidí studovalo dvojčata, ale nikdo neprohlížel migrující dvojčata. Podle mé zkušenosti tato strategie, kterou nazývám motivace nepřítomností , obvykle nevede k dobrému výzkumu. Motivace nepřítomností je něco jako říkat, že tam je díra a já budu pracovat velmi tvrdě naplnit to. Ale ne každá díra musí být vyplněna.

Místo motivace nepřítomností myslím, že lepší strategie je hledat výzkumné otázky, které jsou důležité nebo zajímavé (nebo ideálně oba). Obě tyto pojmy jsou obtížně definovatelné, ale jedním ze způsobů, jak přemýšlet o důležitém výzkumu, je, že má nějaký měřitelný dopad nebo je zdrojem významného rozhodnutí tvůrců politik. Měření míry nezaměstnanosti je důležité například proto, že je indikátorem ekonomiky, která řídí politická rozhodnutí. Obecně si myslím, že badatelé mají docela dobrý pocit, co je důležité. Takže ve zbytku této části představím dva příklady, které myslím, že počítání je zajímavé. V každém případě vědci nezamýšleli náhodně; spíše spočívali ve velmi konkrétním prostředí, které odhalilo důležité poznatky o obecnějších představách o tom, jak fungují sociální systémy. Jinými slovy, mnoho z toho, co činí tato konkrétní počítání cvičení zajímavé, není samotná data, pochází z těchto obecnějších myšlenek.

Jeden příklad jednoduché síly počítání pochází z Henry Farber (2015) studie chování taxikářů New Yorku. Ačkoli tato skupina nemusí vypadat inherentně zajímavá, je strategickým výzkumným místem pro testování dvou konkurenčních teorií v ekonomice práce. Pro účely výzkumu firmy Farber existují dvě důležité rysy o pracovním prostředí řidičů taxi: (1) jejich hodinová mzda kolísá ze dne na den, částečně na základě faktorů, jako je počasí, a (2) počet hodin, které práce může každý den kolísat na základě svých rozhodnutí. Tyto rysy vedou k zajímavé otázce týkající se vztahu mezi hodinovými mzdami a odpracovanými hodinami. Neoklasické modely v ekonomice předpovídají, že řidiči taxi budou pracovat více na dnech, kdy mají vyšší hodinové mzdy. Alternativně modely z behaviorální ekonomiky předpovídají přesně opak. Pokud řidiči nastaví konkrétní cílový příjem - například 100 USD za den - a budou pracovat, dokud nebude tento cíl splněn, pak řidiči skončí pracovat méně hodin ve dnech, kdy vydělávají víc. Například, pokud jste byli cílovým uchazečem, mohli byste skončit v pracovní době čtyři hodiny v dobrém dni (25 USD za hodinu) a pět hodin v špatný den (20 USD za hodinu). Takže řidiči pracují více hodin ve dnech s vyšší hodinovou mzdou (jak předpovídají neoklasické modely) nebo více hodin v dnech s nižší hodinovou mzdou (jak předpovídají behaviorální ekonomické modely)?

Abychom zodpověděli tuto otázku, Farber získal údaje o každém taxislužbě, kterou v letech 2009 až 2013 přijaly kabinky New York City, data, která jsou nyní veřejně dostupná. Tyto údaje - které byly shromážděny elektronickými měřiči, které město vyžaduje, aby taxíky používaly - obsahují informace o každé cestě: čas začátku, místo startu, čas konce, místo konce, jízdné a tip (pokud byl tip vyplacen kreditní kartou) . S využitím dat taxi, Farber zjistil, že většina řidičů pracuje více v dnech, kdy jsou mzdy vyšší, v souladu s neoklasickou teorií.

Vedle tohoto hlavního zjištění byl Farber schopen využít velikost dat pro lepší pochopení heterogenity a dynamiky. Zjistil, že časem se novější řidiči postupně naučili pracovat více hodin ve vysokých mzdových dnech (např. Se učí chovat, jak předpovídá neoklasický model). A noví řidiči, kteří se chovají spíše jako cíloví, mají větší pravděpodobnost, že přestanou být taxikáři. Oba tyto jemnější nálezy, které pomáhají vysvětlit pozorované chování aktuálních ovladačů, byly možné pouze z důvodu velikosti datové sady. V dřívějších studiích nebylo možné zjistit, zda v krátkém časovém úseku používaly papíry z malého počtu taxikářů (Camerer et al. 1997) .

Farberova studie byla blízko k nejlepším scénářům pro výzkum, který využíval velký datový zdroj, protože údaje shromážděné městem byly velmi blízké údajům, které by Farber shromáždil (jeden rozdíl je, že Farber by chtěl údaje o celkovém mzdové tarify plus tipy - ale údaje města obsahovaly pouze tipy placené kreditní kartou). Samotné údaje však nestačily. Klíčem k výzkumu společnosti Farber přinášel na údaje zajímavou otázku, která má větší důsledky i přes toto konkrétní nastavení.

Druhý příklad počítání věcí pochází z výzkumu Gary Kinga, Jennifer Pan a Molly Roberts (2013) o online cenzura čínské vlády. V tomto případě však badatelé museli shromáždit své vlastní velké údaje a museli se vypořádat s tím, že jejich údaje byly neúplné.

Král a kolegové byli motivováni skutečností, že příspěvky na sociální média v Číně jsou cenzurovány obrovským státním aparátem, o němž se předpokládá, že zahrnuje desítky tisíc lidí. Výzkumní pracovníci a občané však nemají pocit, jak se tyto cenzury rozhodnou, jaký obsah by měl být smazán. Učenci Číny ve skutečnosti mají konfliktní očekávání, které druhy příspěvků se s největší pravděpodobností dostanou smazané. Někteří se domnívají, že cenzury se zaměřují na příspěvky, které jsou kritické vůči státu, zatímco jiné se domnívají, že se zaměřují na příspěvky, které povzbuzují kolektivní chování, například protesty. Zjistit, která z těchto očekávání je správná, má důsledky pro to, jak výzkumníci chápou Čínu a další autoritářské vlády, které se zabývají cenzurou. King a kolegové proto chtěli porovnat příspěvky, které byly publikovány a následně smazány, s příspěvky, které byly zveřejněny a nikdy nebyly smazány.

Shromažďování těchto příspěvků podílejí úžasný inženýrský čin plazit více než 1000 čínských sociálních médií webových stránek-každá s jinou stránkou rozložení zjištění relevantní příspěvky, a poté přehodnocení tato místa vidět, které byly následně odstraněny. Kromě běžných technických problémů spojených s velkém měřítku webové plazení, tento projekt měla větší problém, který je nutné ji velmi rychle, protože mnoho cenzorované sloupky jsou sundán v době kratší než 24 hodin. Jinými slovy, pomalu crawler by chybět spousta míst, která byly cenzurovány. Dále jsou roboti museli dělat všechny tyto data jsou shromažďována a zároveň se vyhnout detekci lest webové stránky sociálních médií blokovat přístup či jinak měnit svou politiku v reakci na studii.

V době dokončení tohoto masivního strojírenského úkolu získali král a kolegové přibližně 11 milionů pracovních míst na 85 různých předem určených tématech, z nichž každá měla předpokládanou úroveň citlivosti. Například téma vysoké citlivosti je Ai Weiwei, disidentský umělec; téma střední citlivosti je ocenění a devalvace čínské měny a téma nízké citlivosti je Světový pohár. Z těchto 11 milionů pracovních míst bylo přibližně 2 miliony cenzurovaných. Překvapivě král a kolegové zjistili, že příspěvky na vysoce citlivé témata byly cenzurovány jen o něco častěji než příspěvky na témata středně a nízko citlivá. Jinými slovy, čínští cenzurovaní pravděpodobně cenzurovají příspěvek, který uvádí Ai Weiwei jako příspěvek, který uvádí Světový pohár. Tato zjištění nepodporují myšlenku, že vláda cenzoruje všechny příspěvky týkající se citlivých témat.

Tento jednoduchý výpočet míry cenzury podle tématu by však mohl být zavádějící. Například vláda by mohla cenzurovat příspěvky, které podporují Ai Weiweiho, ale zanechávají na něm kritické body. Aby bylo možné pečlivěji rozlišovat mezi stanovišti, vědci museli měřit sentiment každého příspěvku. Bohužel, i přes hodně práce, plně automatizované metody detekce sentimentu používající preexistující slovníky stále nejsou v mnoha situacích příliš dobré (přemýšlejte o problémech vytvářejících citovou časovou osu z 11. září 2001 popsanou v části 2.3.9). Král a kolegové proto potřebovali způsob označování svých 11 milionů příspěvků v sociálních médiích za to, zda jsou (1) kritičtí vůči státu, (2) podporují stát, nebo (3) irelevantní nebo faktické zprávy o událostech. Zní to jako obrovská práce, ale vyřešili to pomocí silného triku, který je běžný v oblasti vědy o datech, ale relativně vzácný v oblasti společenských věd: supervizované učení ; viz obrázek 2.5.

Za prvé, v kroku obvykle nazývaném předběžné zpracování , výzkumníci převedli příspěvky sociálních médií do matice dokumentů , kde byl pro každý dokument jeden řádek a jeden sloupec, který zaznamenal, zda příspěvek obsahoval určité slovo (např. Protest nebo provoz) . Dále skupina výzkumných asistentů ručně označila sentiment vzorku příspěvků. Poté používali tato ručně označená data k vytvoření modelu strojového učení, který by mohl vycházet ze sentimentu příspěvku na základě jeho charakteristik. Nakonec použili tento model k odhadu sentimentu všech 11 milionů příspěvků.

Spíše než ručně číst a označovat 11 milionů příspěvků - což by bylo logicky nemožné - král a kolegové ručně označili malý počet pracovních míst a poté využili supervizované vzdělání k odhadnutí sentimentu všech pracovních míst. Po dokončení této analýzy dospěli k závěru, že poněkud překvapivě nebyla pravděpodobnost, že by byl příspěvek vymazán, spojen s tím, zda je kritický vůči státu nebo že podporuje stát.

Obrázek 2.5: Zjednodušená schéma postupu používaného králem, Panem a Robertsem (2013) k odhadnutí sentimentu 11 milionů čínských sociálních médií. Za prvé, v předběžném procesu výzkumníci přeměnili příspěvky sociálních médií na matici dokumentů (více viz Grimmer a Stewart (2013)). Za druhé, ručně zakódovali pocity malého vzorku sloupků. Za třetí, vyškolení modelu pod dohledem, který klasifikuje sentiment příspěvků. Za čtvrté, používali model pod dohledem, aby odhadli sentiment všech příspěvků. Podrobnější popis viz King, Pan a Roberts (2013), příloha B.

Obrázek 2.5: Zjednodušená schéma postupu používaného King, Pan, and Roberts (2013) k odhadnutí sentimentu 11 milionů čínských sociálních médií. Za prvé, v předběžném procesu výzkumníci přeměnili příspěvky sociálních médií na matici dokumentů (více viz Grimmer and Stewart (2013) ). Za druhé, ručně zakódovali pocity malého vzorku sloupků. Za třetí, vyškolení modelu pod dohledem, který klasifikuje sentiment příspěvků. Za čtvrté, používali model pod dohledem, aby odhadli sentiment všech příspěvků. Podrobnější popis viz King, Pan, and Roberts (2013) , příloha B.

Král a kolegové nakonec zjistili, že byly pravidelně cenzurovány pouze tři typy pracovních míst: pornografie, kritika cenzorů a ty, které měly potenciál kolektivní akce (tj. Možnost vést k rozsáhlým protestům). Pozorováním obrovského počtu smazaných příspěvků a příspěvků, které nebyly odstraněny, se King a kolegové mohli dozvědět, jak cenzory fungují právě sledováním a počítáním. Dále předcházejícím tématu, která se objeví v celé knize, se řídí metodou supervizovaného učení, kterou používali - ruční označování některých výstupů a poté vytvoření modelu strojového učení, aby označili zbytek - je to velmi běžné v sociálním výzkumu v digitálním věku . Zobrazí se obrázky velmi podobné obrázku 2.5 v kapitolách 3 (Asking questions) a 5 (Creating mass collaboration); toto je jedna z mála myšlenek, která se objevují v několika kapitolách.

Tyto příklady - pracovní chování taxikářů v New Yorku a cenzura chování čínské vlády v sociálních médiích - ukazují, že relativně jednoduché počítání velkých datových zdrojů může v některých situacích vést k zajímavému a důležitému výzkumu. V obou případech však výzkumníci museli přivést zajímavé otázky k velkému zdroji dat; data sama o sobě nestačila.